ພວກເຮົາປະເຊີນກັບບັນຫາການເພີ່ມປະສິດທິພາບໃນຫຼາຍໆສະຖານະການໃນໂລກທີ່ແທ້ຈິງທີ່ພວກເຮົາຕ້ອງການກໍານົດຕໍາ່ສຸດທີ່ຫຼືສູງສຸດຂອງຫນ້າທີ່.
ພິຈາລະນາຟັງຊັນທີ່ຈະເປັນຕົວແທນທາງຄະນິດສາດຂອງລະບົບ, ແລະການກໍານົດຕໍາ່ສຸດທີ່ຫຼືສູງສຸດຂອງມັນສາມາດເປັນສິ່ງສໍາຄັນສໍາລັບຫຼາຍໆຄໍາຮ້ອງສະຫມັກເຊັ່ນການຮຽນຮູ້ເຄື່ອງຈັກ, ວິສະວະກໍາ, ການເງິນ, ແລະອື່ນໆ.
ພິຈາລະນາພູມສັນຖານທີ່ມີເນີນພູແລະຮ່ອມພູ, ແລະເປົ້າຫມາຍຂອງພວກເຮົາແມ່ນເພື່ອຊອກຫາຈຸດຕ່ໍາສຸດ (ຕໍາ່ສຸດທີ່) ເພື່ອໄປເຖິງຈຸດຫມາຍປາຍທາງຂອງພວກເຮົາໄວເທົ່າທີ່ຈະໄວໄດ້.
ພວກເຮົາມັກໃຊ້ສູດການຄິດໄລ່ການສືບເຊື້ອສາຍ gradient ເພື່ອແກ້ໄຂສິ່ງທ້າທາຍການເພີ່ມປະສິດທິພາບດັ່ງກ່າວ. ສູດການຄິດໄລ່ເຫຼົ່ານີ້ແມ່ນວິທີການເພີ່ມປະສິດທິພາບຊ້ຳໆສໍາລັບການຫຼຸດຜ່ອນການທໍາງານໂດຍການດໍາເນີນຂັ້ນຕອນໃນທິດທາງຂອງການສືບເຊື້ອສາຍ steepest (gradient ລົບ).
gradient ສະທ້ອນໃຫ້ເຫັນທິດທາງທີ່ມີການເພີ່ມຂຶ້ນ steepest ໃນຫນ້າທີ່, ແລະການເດີນທາງໃນທິດທາງກົງກັນຂ້າມນໍາພວກເຮົາໄປຕໍາ່ສຸດທີ່.
Gradient Descent Algorithm ແມ່ນຫຍັງແທ້?
Gradient descent ແມ່ນວິທີການເພີ່ມປະສິດທິພາບແບບຊ້ຳໆທີ່ເປັນທີ່ນິຍົມສໍາລັບການກໍານົດຕໍາ່ສຸດທີ່ (ຫຼືສູງສຸດ) ຂອງຟັງຊັນ.
ມັນເປັນເຄື່ອງມືທີ່ສໍາຄັນໃນຫຼາຍຂົງເຂດ, ລວມທັງ ການຮຽນຮູ້ເຄື່ອງຈັກ, ການຮຽນຮູ້ເລິກ, ປັນຍາປະດິດ, ວິສະວະກໍາ, ແລະການເງິນ.
ຫຼັກການພື້ນຖານຂອງ algorithm ແມ່ນອີງໃສ່ການນໍາໃຊ້ gradient ຂອງມັນ, ເຊິ່ງສະແດງທິດທາງຂອງການເພີ່ມຂື້ນແຫຼມທີ່ສຸດໃນຄ່າຂອງຟັງຊັນ.
ສູດການຄິດໄລ່ປະສິດທິຜົນນໍາທາງພູມສັນຖານຂອງຟັງຊັນໄປສູ່ຕໍາ່ສຸດທີ່ໂດຍການເຮັດຊ້ໍາຂັ້ນຕອນໃນທິດທາງກົງກັນຂ້າມເປັນ gradient, ປັບປຸງການແກ້ໄຂຄືນໃຫມ່ຈົນກ່ວາ convergence.
ເປັນຫຍັງພວກເຮົາໃຊ້ວິທີການການສືບເຊື້ອສາຍ Gradient?
ສໍາລັບການເລີ່ມຕົ້ນ, ພວກເຂົາສາມາດຖືກນໍາໃຊ້ເພື່ອແກ້ໄຂບັນຫາການເພີ່ມປະສິດທິພາບທີ່ຫລາກຫລາຍ, ລວມທັງພື້ນທີ່ທີ່ມີຂະຫນາດສູງແລະຫນ້າທີ່ສະລັບສັບຊ້ອນ.
ອັນທີສອງ, ພວກເຂົາສາມາດຊອກຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດໄດ້ໄວ, ໂດຍສະເພາະໃນເວລາທີ່ການແກ້ໄຂການວິເຄາະບໍ່ສາມາດໃຊ້ໄດ້ຫຼືມີລາຄາແພງໃນຄອມພິວເຕີ້.
ເຕັກນິກການສືບເຊື້ອສາຍແບບ Gradient ແມ່ນສາມາດຂະຫຍາຍໄດ້ສູງ ແລະສາມາດຈັດການຊຸດຂໍ້ມູນອັນມະຫາສານໄດ້ຢ່າງສຳເລັດຜົນ.
ດັ່ງນັ້ນ, ພວກມັນຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນ ສູດການຮຽນຮູ້ເຄື່ອງຈັກ ຄືກັບການຝຶກອົບຮົມເຄືອຂ່າຍ neural ເພື່ອຮຽນຮູ້ຈາກຂໍ້ມູນແລະດັດແປງຕົວກໍານົດການຂອງພວກເຂົາເພື່ອຫຼຸດຜ່ອນຄວາມຜິດພາດຂອງການຄາດຄະເນ.
ຕົວຢ່າງລາຍລະອຽດຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍ Gradient
ຂໍໃຫ້ເບິ່ງຕົວຢ່າງລາຍລະອຽດເພີ່ມເຕີມເພື່ອໃຫ້ມີຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບເຕັກນິກການສືບເຊື້ອສາຍ gradient.
ພິຈາລະນາຟັງຊັນ 2D f(x) = x2, ເຊິ່ງສ້າງເສັ້ນໂຄ້ງ parabolic ພື້ນຖານທີ່ມີຕໍາ່ສຸດທີ່ (0,0). ສູດການຄິດໄລ່ການສືບເຊື້ອສາຍ gradient ຈະຖືກນໍາໃຊ້ເພື່ອກໍານົດຈຸດຫນ້ອຍນີ້.
ຂັ້ນຕອນທີ 1: ການເລີ່ມຕົ້ນ
ຂັ້ນຕອນການສືບເຊື້ອສາຍ gradient ເລີ່ມຕົ້ນໂດຍການເລີ່ມຕົ້ນຄ່າຂອງຕົວແປ x, ສະແດງເປັນ x0.
ມູນຄ່າເບື້ອງຕົ້ນສາມາດມີຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ການປະຕິບັດຂອງ algorithm.
ການເລີ່ມຕົ້ນແບບສຸ່ມຫຼືການຈ້າງຄວາມຮູ້ເບື້ອງຕົ້ນຂອງບັນຫາແມ່ນສອງເຕັກນິກທົ່ວໄປ. ສົມມຸດວ່າ x₀ = 3 ໃນຕອນເລີ່ມຕົ້ນຂອງກໍລະນີຂອງພວກເຮົາ.
ຂັ້ນຕອນທີ 2: ການຄິດໄລ່ Gradient
gradient ຂອງຟັງຊັນ f(x) ຢູ່ຕຳແໜ່ງປັດຈຸບັນ x₀. ຫຼັງຈາກນັ້ນຕ້ອງໄດ້ຮັບການຄິດໄລ່.
gradient ຊີ້ບອກເຖິງຄວາມຊັນ ຫຼືອັດຕາການປ່ຽນແປງຂອງຟັງຊັນໃນຕໍາແໜ່ງສະເພາະນັ້ນ.
ພວກເຮົາຄິດໄລ່ອະນຸພັນກ່ຽວກັບ x ສໍາລັບຟັງຊັນ f(x) = x2, ເຊິ່ງໃຫ້ f'(x) = 2x. ພວກເຮົາໄດ້ຮັບ gradient ຢູ່ທີ່ x0 ເປັນ 2 * 3 = 6 ໂດຍການທົດແທນ x₀ = 3 ເຂົ້າໃນການຄິດໄລ່ gradient.
ຂັ້ນຕອນທີ 3: ອັບເດດພາລາມິເຕີ
ການນໍາໃຊ້ຂໍ້ມູນ gradient, ພວກເຮົາປັບປຸງຄ່າຂອງ x ດັ່ງຕໍ່ໄປນີ້: x = x₀ – α * f'(x₀), α (alpha) ຫມາຍເຖິງອັດຕາການຮຽນຮູ້.
ອັດຕາການຮຽນຮູ້ແມ່ນ hyperparameter ທີ່ກໍານົດຂະຫນາດຂອງແຕ່ລະຂັ້ນຕອນໃນຂະບວນການປັບປຸງ. ການກໍານົດອັດຕາການຮຽນຮູ້ທີ່ເຫມາະສົມແມ່ນສໍາຄັນເພາະວ່າອັດຕາການຮຽນຮູ້ຊ້າສາມາດເຮັດໃຫ້ເກີດ ຂັ້ນຕອນວິທີ ໃຊ້ເວລາຄ້າງຫ້ອງຫຼາຍເກີນໄປເພື່ອບັນລຸຕໍາ່ສຸດທີ່.
ໃນທາງກົງກັນຂ້າມ, ອັດຕາການຮຽນຮູ້ທີ່ສູງສາມາດສົ່ງຜົນໃຫ້ algorithm bounce ຫຼືລົ້ມເຫລວ. ໃຫ້ພວກເຮົາສົມມຸດອັດຕາການຮຽນຮູ້ຂອງ α = 0.1 ສໍາລັບ sake ຂອງຕົວຢ່າງນີ້.
ຂັ້ນຕອນທີ 4: ຕື່ມຂໍ້ມູນໃສ່
ຫຼັງຈາກທີ່ພວກເຮົາມີມູນຄ່າການປັບປຸງຂອງ x, ພວກເຮົາເຮັດຊ້ໍາຂັ້ນຕອນທີ 2 ແລະ 3 ສໍາລັບຈໍານວນທີ່ກໍານົດໄວ້ລ່ວງຫນ້າຂອງ iterations ຫຼືຈົນກ່ວາການປ່ຽນແປງໃນ x ກາຍເປັນຫນ້ອຍ, ຊີ້ໃຫ້ເຫັນເຖິງ convergence.
ວິທີການຄິດໄລ່ gradient, ປັບປຸງຄ່າຂອງ x, ແລະສືບຕໍ່ຂັ້ນຕອນໃນແຕ່ລະ iteration, ໃຫ້ມັນເຂົ້າໃກ້ກັບຕໍາ່ສຸດທີ່.
ຂັ້ນຕອນທີ 5: Convergence
ເທກນິກດັ່ງກ່າວໄດ້ໝູນວຽນມາພາຍຫຼັງສອງສາມຄັ້ງຈົນເຖິງຈຸດທີ່ການປັບປຸງຕື່ມອີກບໍ່ມີຜົນກະທົບທາງດ້ານວັດຖຸ.
ໃນກໍລະນີຂອງພວກເຮົາ, ໃນເວລາທີ່ການທົດສອບຕໍ່ໄປ, x ຈະເຂົ້າໃກ້ 0, ເຊິ່ງແມ່ນຄ່າຕໍາ່ສຸດທີ່ຂອງ f(x) = x^2. ຈໍານວນການເຮັດຊ້ຳທີ່ຈຳເປັນສຳລັບການບັນລຸໄດ້ຖືກກຳນົດໂດຍປັດໄຈເຊັ່ນອັດຕາການຮຽນຮູ້ທີ່ເລືອກແລະຄວາມສັບສົນຂອງໜ້າທີ່ທີ່ຖືກປັບໃຫ້ເໝາະສົມ.
ການເລືອກອັດຕາການຮຽນຮູ້ ()
ການເລືອກອັດຕາການຮຽນຮູ້ທີ່ຍອມຮັບໄດ້ () ແມ່ນສໍາຄັນຕໍ່ປະສິດທິພາບຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍຂອງ gradient. ດັ່ງທີ່ໄດ້ກ່າວໄວ້ກ່ອນຫນ້ານີ້, ອັດຕາການຮຽນຮູ້ທີ່ຕໍ່າສາມາດເຮັດໃຫ້ເກີດການລວມຕົວຊ້າ, ໃນຂະນະທີ່ອັດຕາການຮຽນຮູ້ທີ່ສູງສາມາດເຮັດໃຫ້ເກີດຄວາມແຕກແຍກແລະຄວາມລົ້ມເຫລວ.
ການຊອກຫາຄວາມດຸ່ນດ່ຽງທີ່ເຫມາະສົມແມ່ນສໍາຄັນຕໍ່ການຮັບປະກັນວ່າສູດການຄິດໄລ່ຈະເຂົ້າໄປໃນລະດັບຕໍາ່ສຸດທີ່ຕັ້ງໄວ້ຢ່າງມີປະສິດທິພາບເທົ່າທີ່ເປັນໄປໄດ້.
ການປັບອັດຕາການຮຽນຮູ້ມັກຈະເປັນຂັ້ນຕອນການທົດລອງ ແລະຄວາມຜິດພາດໃນພາກປະຕິບັດ. ນັກຄົ້ນຄວ້າແລະນັກປະຕິບັດມັກຈະທົດລອງກັບອັດຕາການຮຽນຮູ້ທີ່ແຕກຕ່າງກັນເພື່ອເບິ່ງວ່າພວກເຂົາມີຜົນກະທົບແນວໃດຕໍ່ການປະສົມປະສານຂອງ algorithm ໃນສິ່ງທ້າທາຍໂດຍສະເພາະຂອງພວກເຂົາ.
ການຈັດການຟັງຊັນທີ່ບໍ່ແມ່ນໂຄນ
ໃນຂະນະທີ່ຕົວຢ່າງກ່ອນຫນ້າມີຫນ້າທີ່ convex ງ່າຍດາຍ, ຫຼາຍບັນຫາການເພີ່ມປະສິດທິພາບຂອງໂລກທີ່ແທ້ຈິງກ່ຽວຂ້ອງກັບຫນ້າທີ່ບໍ່ convex ກັບ minima ທ້ອງຖິ່ນຈໍານວນຫຼາຍ.
ໃນເວລາທີ່ນໍາໃຊ້ gradient descent ໃນກໍລະນີດັ່ງກ່າວ, ວິທີການສາມາດ converge ກັບຕໍາ່ສຸດທີ່ທ້ອງຖິ່ນແທນທີ່ຈະເປັນຕໍາ່ສຸດທີ່ໃນທົ່ວໂລກ.
ຫຼາຍໆຮູບແບບທີ່ກ້າວຫນ້າຂອງການສືບເຊື້ອສາຍ gradient ໄດ້ຖືກພັດທະນາເພື່ອເອົາຊະນະບັນຫານີ້. Stochastic Gradient Descent (SGD) ແມ່ນວິທີໜຶ່ງທີ່ແນະນຳການສຸ່ມໂດຍການເລືອກຊຸດຍ່ອຍຂອງຈຸດຂໍ້ມູນແບບສຸ່ມ (ເອີ້ນວ່າຊຸດຂະໜາດນ້ອຍ) ເພື່ອຄຳນວນ gradient ໃນແຕ່ລະເທື່ອ.
ການເກັບຕົວຢ່າງແບບສຸ່ມນີ້ຊ່ວຍໃຫ້ສູດການຄິດໄລ່ເພື່ອຫຼີກເວັ້ນການ minima ທ້ອງຖິ່ນແລະຄົ້ນຫາພາກສ່ວນໃຫມ່ຂອງພູມສັນຖານຂອງຟັງຊັນ, ເພີ່ມໂອກາດໃນການຄົ້ນພົບຕໍາ່ສຸດທີ່ທີ່ດີກວ່າ.
Adam (Adaptive Moment Estimation) ແມ່ນການປ່ຽນແປງທີ່ໂດດເດັ່ນອີກອັນໜຶ່ງ, ເຊິ່ງເປັນວິທີການເພີ່ມປະສິດທິພາບອັດຕາການຮຽນຮູ້ແບບປັບຕົວ ເຊິ່ງລວມເອົາຜົນປະໂຫຍດຂອງທັງ RMSprop ແລະ momentum.
Adam ດັດແປງອັດຕາການຮຽນຮູ້ສໍາລັບແຕ່ລະພາລາມິເຕີແບບເຄື່ອນໄຫວໂດຍອີງໃສ່ຂໍ້ມູນ gradient ທີ່ຜ່ານມາ, ເຊິ່ງອາດຈະເຮັດໃຫ້ການລວມກັນດີຂຶ້ນໃນຫນ້າທີ່ທີ່ບໍ່ແມ່ນ convex.
ການປ່ຽນແປງການສືບເຊື້ອສາຍແບບ gradient ທີ່ມີຄວາມຊັບຊ້ອນເຫຼົ່ານີ້ໄດ້ພິສູດໃຫ້ເຫັນວ່າມີປະສິດທິພາບໃນການຈັດການໜ້າທີ່ຊັບຊ້ອນທີ່ເພີ່ມຂຶ້ນ ແລະ ໄດ້ກາຍເປັນເຄື່ອງມືມາດຕະຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກ ແລະ ການຮຽນຮູ້ແບບເລິກເຊິ່ງ, ເຊິ່ງບັນຫາການເພີ່ມປະສິດທິພາບທີ່ບໍ່ແມ່ນໂຄນແມ່ນເປັນເລື່ອງທົ່ວໄປ.
ຂັ້ນຕອນທີ 6: ເຫັນຄວາມຄືບຫນ້າຂອງທ່ານ
ໃຫ້ເຮົາເບິ່ງຄວາມຄືບໜ້າຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍຂອງ gradient ເພື່ອໃຫ້ໄດ້ຮັບຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບຂະບວນການຊໍ້າຄືນຂອງມັນ. ພິຈາລະນາກາຟທີ່ມີແກນ x ທີ່ເປັນຕົວແທນການເຮັດຊ້ຳແລະແກນ y ແທນຄ່າຂອງຟັງຊັນ f(x).
ໃນຂະນະທີ່ algorithm iterate, ຄ່າຂອງ x ເຂົ້າຫາສູນແລະ, ດັ່ງນັ້ນ, ຄ່າຟັງຊັນຫຼຸດລົງໃນແຕ່ລະຂັ້ນຕອນ. ເມື່ອວາງແຜນໃນກາຟ, ນີ້ຈະສະແດງແນວໂນ້ມການຫຼຸດລົງທີ່ຊັດເຈນ, ສະທ້ອນໃຫ້ເຫັນເຖິງຄວາມຄືບຫນ້າຂອງ algorithm ໄປສູ່ການບັນລຸຕໍາ່ສຸດທີ່.
ຂັ້ນຕອນທີ 7: ການປັບປ່ຽນອັດຕາການຮຽນຮູ້
ອັດຕາການຮຽນຮູ້ () ເປັນປັດໃຈສໍາຄັນໃນການປະຕິບັດຂອງ algorithm. ໃນທາງປະຕິບັດ, ການກໍານົດອັດຕາການຮຽນຮູ້ທີ່ເຫມາະສົມເລື້ອຍໆຈໍາເປັນຕ້ອງມີການທົດລອງແລະຄວາມຜິດພາດ.
ເຕັກນິກການເພີ່ມປະສິດທິພາບບາງຢ່າງ, ເຊັ່ນຕາຕະລາງອັດຕາການຮຽນຮູ້, ສາມາດປ່ຽນແປງອັດຕາການຮຽນຮູ້ແບບເຄື່ອນໄຫວໃນລະຫວ່າງການຝຶກອົບຮົມ, ເລີ່ມຕົ້ນດ້ວຍມູນຄ່າທີ່ສູງຂຶ້ນແລະຫຼຸດລົງເທື່ອລະກ້າວຍ້ອນວ່າສູດການຄິດໄລ່ມາຮອດ convergence.
ວິທີການນີ້ຊ່ວຍໃຫ້ມີຄວາມສົມດູນລະຫວ່າງການພັດທະນາຢ່າງໄວວາໃນຕອນເລີ່ມຕົ້ນແລະຄວາມຫມັ້ນຄົງຢູ່ໃກ້ໃນຕອນທ້າຍຂອງຂະບວນການເພີ່ມປະສິດທິພາບ.
ຕົວຢ່າງອີກອັນຫນຶ່ງ: ການຫຼຸດຜ່ອນການທໍາງານຂອງສີ່ຫຼ່ຽມ
ໃຫ້ເບິ່ງຕົວຢ່າງອື່ນເພື່ອໃຫ້ມີຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບການສືບເຊື້ອສາຍ gradient.
ພິຈາລະນາຟັງຊັນສີ່ຫລ່ຽມສອງມິຕິ g(x) = (x – 5)^2. ຢູ່ທີ່ x = 5, ຟັງຊັນນີ້ເຊັ່ນດຽວກັນມີຕໍາ່ສຸດທີ່. ເພື່ອຊອກຫາຕໍາ່ສຸດທີ່ນີ້, ພວກເຮົາຈະນໍາໃຊ້ການສືບເຊື້ອສາຍ gradient.
1. ການເລີ່ມຕົ້ນ: ໃຫ້ເລີ່ມຕົ້ນດ້ວຍ x0 = 8 ເປັນຈຸດເລີ່ມຕົ້ນຂອງພວກເຮົາ.
2. ຈ່ ງົ ຊອກຫາຄ່ າຂອງ g(x): g'(x) = 2(x − 5). ເມື່ອພວກເຮົາປ່ຽນແທນ x0 = 8, gradient ທີ່ x0 ແມ່ນ 2 * (8 – 5) = 6.
3. ດ້ວຍ = 0.2 ເປັນອັດຕາການຮຽນຮູ້ຂອງພວກເຮົາ, ພວກເຮົາປັບປຸງ x ດັ່ງຕໍ່ໄປນີ້: x = x₀ – α * g'(x₀) = 8 – 0.2 * 6 = 6.8.
4. ເຮັດຊ້ຳ: ພວກເຮົາເຮັດຂັ້ນຕອນທີ 2 ແລະ 3 ຊ້ຳຫຼາຍເທື່ອເທົ່າທີ່ຈຳເປັນຈົນກວ່າຈະຮອດການລວມກັນ. ແຕ່ລະຮອບວຽນເອົາ x ເຂົ້າໃກ້ 5, ຄ່າຕໍ່າສຸດຂອງ g(x) = (x – 5)2.
5. Convergence: ວິທີການສຸດທ້າຍຈະ converge ເປັນ x = 5, ຊຶ່ງເປັນຄ່າຫນ້ອຍສຸດຂອງ g(x) = (x – 5)2.
ການປຽບທຽບອັດຕາການຮຽນຮູ້
ໃຫ້ສົມທຽບຄວາມໄວ convergence ຂອງ gradient descent ສໍາລັບອັດຕາການຮຽນຮູ້ທີ່ແຕກຕ່າງກັນ, ເວົ້າວ່າ α = 0.1, α = 0.2, ແລະ α = 0.5 ໃນຕົວຢ່າງໃຫມ່ຂອງພວກເຮົາ. ພວກເຮົາສາມາດເຫັນໄດ້ວ່າອັດຕາການຮຽນຮູ້ທີ່ຕໍ່າກວ່າ (e. g. = 0.1) ຈະເຮັດໃຫ້ການລວມກັນຍາວກວ່າແຕ່ມີຄວາມຖືກຕ້ອງຕ່ໍາສຸດ.
ອັດຕາການຮຽນຮູ້ທີ່ສູງຂຶ້ນ (e.g., = 0.5) ຈະ converge ໄວຂຶ້ນແຕ່ສາມາດ overshoot ຫຼື oscillate ກ່ຽວກັບຕໍາ່ສຸດທີ່, ຜົນໄດ້ຮັບໃນຄວາມຖືກຕ້ອງທີ່ບໍ່ດີ.
ຕົວຢ່າງ Multimodal ຂອງການຈັດການຟັງຊັນທີ່ບໍ່ໂກນ
ພິຈາລະນາ h(x) = sin(x) + 0.5x, ການທໍາງານທີ່ບໍ່ແມ່ນ convex.
ມີ minima ແລະ maxima ຫຼາຍທ້ອງຖິ່ນສໍາລັບຟັງຊັນນີ້. ອີງຕາມຕໍາແຫນ່ງເລີ່ມຕົ້ນແລະອັດຕາການຮຽນຮູ້, ພວກເຮົາສາມາດ converge ກັບ minima ທ້ອງຖິ່ນໃດຫນຶ່ງໂດຍໃຊ້ gradient descent ມາດຕະຖານ.
ພວກເຮົາສາມາດແກ້ໄຂບັນຫານີ້ໄດ້ໂດຍການໃຊ້ເຕັກນິກການເພີ່ມປະສິດທິພາບຂັ້ນສູງເຊັ່ນ: Adam ຫຼື stochastic gradient descent (SGD). ວິທີການເຫຼົ່ານີ້ໃຊ້ອັດຕາການຮຽນຮູ້ແບບປັບຕົວຫຼືການເກັບຕົວຢ່າງແບບສຸ່ມເພື່ອຄົ້ນຫາພາກພື້ນທີ່ແຕກຕ່າງກັນຂອງພູມສັນຖານຂອງຫນ້າທີ່, ເພີ່ມຄວາມເປັນໄປໄດ້ຂອງການບັນລຸຕໍາ່ສຸດທີ່ດີຂຶ້ນ.
ສະຫຼຸບ
Gradient descent algorithms ແມ່ນເຄື່ອງມືການເພີ່ມປະສິດທິພາບທີ່ມີປະສິດທິພາບທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນອຸດສາຫະກໍາທີ່ກວ້າງຂວາງ. ພວກມັນຄົ້ນພົບຄ່າຕໍ່າສຸດ (ຫຼືສູງສຸດ) ຂອງຟັງຊັນໃດໜຶ່ງໂດຍການອັບເດດພາລາມິເຕີແບບຊ້ຳໆໂດຍອີງໃສ່ທິດທາງຂອງ gradient.
ເນື່ອງຈາກລັກສະນະຊ້ໍາຊ້ອນຂອງ algorithm, ມັນສາມາດຈັດການພື້ນທີ່ທີ່ມີມິຕິລະດັບສູງແລະຫນ້າທີ່ສະລັບສັບຊ້ອນ, ເຮັດໃຫ້ມັນເປັນສິ່ງທີ່ຂາດບໍ່ໄດ້ໃນການຮຽນຮູ້ເຄື່ອງຈັກແລະການປຸງແຕ່ງຂໍ້ມູນ.
ການສືບເຊື້ອສາຍແບບ Gradient ສາມາດແກ້ໄຂຄວາມຫຍຸ້ງຍາກໃນຄວາມເປັນຈິງໄດ້ຢ່າງງ່າຍດາຍ ແລະປະກອບສ່ວນຢ່າງຫຼວງຫຼາຍຕໍ່ການເຕີບໂຕຂອງເຕັກໂນໂລຊີ ແລະການຕັດສິນໃຈທີ່ຂັບເຄື່ອນດ້ວຍຂໍ້ມູນໂດຍການເລືອກອັດຕາການຮຽນຮູ້ຢ່າງລະມັດລະວັງ ແລະນໍາໃຊ້ການປ່ຽນແປງທີ່ກ້າວຫນ້າເຊັ່ນ: stochastic gradient descent ແລະ Adam.
ອອກຈາກ Reply ເປັນ