ຕົວຢ່າງຂອງ Gradient Descent Algorithm

ພວກເຮົາປະເຊີນກັບບັນຫາການເພີ່ມປະສິດທິພາບໃນຫຼາຍໆສະຖານະການໃນໂລກທີ່ແທ້ຈິງທີ່ພວກເຮົາຕ້ອງການກໍານົດຕໍາ່ສຸດທີ່ຫຼືສູງສຸດຂອງຫນ້າທີ່.

ພິຈາລະນາຟັງຊັນທີ່ຈະເປັນຕົວແທນທາງຄະນິດສາດຂອງລະບົບ, ແລະການກໍານົດຕໍາ່ສຸດທີ່ຫຼືສູງສຸດຂອງມັນສາມາດເປັນສິ່ງສໍາຄັນສໍາລັບຫຼາຍໆຄໍາຮ້ອງສະຫມັກເຊັ່ນການຮຽນຮູ້ເຄື່ອງຈັກ, ວິສະວະກໍາ, ການເງິນ, ແລະອື່ນໆ.

ພິຈາລະນາພູມສັນຖານທີ່ມີເນີນພູແລະຮ່ອມພູ, ແລະເປົ້າຫມາຍຂອງພວກເຮົາແມ່ນເພື່ອຊອກຫາຈຸດຕ່ໍາສຸດ (ຕໍາ່ສຸດທີ່) ເພື່ອໄປເຖິງຈຸດຫມາຍປາຍທາງຂອງພວກເຮົາໄວເທົ່າທີ່ຈະໄວໄດ້.

ພວກເຮົາມັກໃຊ້ສູດການຄິດໄລ່ການສືບເຊື້ອສາຍ gradient ເພື່ອແກ້ໄຂສິ່ງທ້າທາຍການເພີ່ມປະສິດທິພາບດັ່ງກ່າວ. ສູດການຄິດໄລ່ເຫຼົ່ານີ້ແມ່ນວິທີການເພີ່ມປະສິດທິພາບຊ້ຳໆສໍາລັບການຫຼຸດຜ່ອນການທໍາງານໂດຍການດໍາເນີນຂັ້ນຕອນໃນທິດທາງຂອງການສືບເຊື້ອສາຍ steepest (gradient ລົບ).

gradient ສະທ້ອນໃຫ້ເຫັນທິດທາງທີ່ມີການເພີ່ມຂຶ້ນ steepest ໃນຫນ້າທີ່, ແລະການເດີນທາງໃນທິດທາງກົງກັນຂ້າມນໍາພວກເຮົາໄປຕໍາ່ສຸດທີ່.

Gradient Descent Algorithm ແມ່ນຫຍັງແທ້?

Gradient descent ແມ່ນວິທີການເພີ່ມປະສິດທິພາບແບບຊ້ຳໆທີ່ເປັນທີ່ນິຍົມສໍາລັບການກໍານົດຕໍາ່ສຸດທີ່ (ຫຼືສູງສຸດ) ຂອງຟັງຊັນ.

ມັນເປັນເຄື່ອງມືທີ່ສໍາຄັນໃນຫຼາຍຂົງເຂດ, ລວມທັງ ການຮຽນຮູ້ເຄື່ອງຈັກ, ການຮຽນຮູ້ເລິກ, ປັນຍາປະດິດ, ວິສະວະກໍາ, ແລະການເງິນ.

ຫຼັກການພື້ນຖານຂອງ algorithm ແມ່ນອີງໃສ່ການນໍາໃຊ້ gradient ຂອງມັນ, ເຊິ່ງສະແດງທິດທາງຂອງການເພີ່ມຂື້ນແຫຼມທີ່ສຸດໃນຄ່າຂອງຟັງຊັນ.

ສູດການຄິດໄລ່ປະສິດທິຜົນນໍາທາງພູມສັນຖານຂອງຟັງຊັນໄປສູ່ຕໍາ່ສຸດທີ່ໂດຍການເຮັດຊ້ໍາຂັ້ນຕອນໃນທິດທາງກົງກັນຂ້າມເປັນ gradient, ປັບປຸງການແກ້ໄຂຄືນໃຫມ່ຈົນກ່ວາ convergence.

ເປັນຫຍັງພວກເຮົາໃຊ້ວິທີການການສືບເຊື້ອສາຍ Gradient?

ສໍາລັບການເລີ່ມຕົ້ນ, ພວກເຂົາສາມາດຖືກນໍາໃຊ້ເພື່ອແກ້ໄຂບັນຫາການເພີ່ມປະສິດທິພາບທີ່ຫລາກຫລາຍ, ລວມທັງພື້ນທີ່ທີ່ມີຂະຫນາດສູງແລະຫນ້າທີ່ສະລັບສັບຊ້ອນ.

ອັນທີສອງ, ພວກເຂົາສາມາດຊອກຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດໄດ້ໄວ, ໂດຍສະເພາະໃນເວລາທີ່ການແກ້ໄຂການວິເຄາະບໍ່ສາມາດໃຊ້ໄດ້ຫຼືມີລາຄາແພງໃນຄອມພິວເຕີ້.

ເຕັກນິກການສືບເຊື້ອສາຍແບບ Gradient ແມ່ນສາມາດຂະຫຍາຍໄດ້ສູງ ແລະສາມາດຈັດການຊຸດຂໍ້ມູນອັນມະຫາສານໄດ້ຢ່າງສຳເລັດຜົນ.

ດັ່ງນັ້ນ, ພວກມັນຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນ ສູດການຮຽນຮູ້ເຄື່ອງຈັກ ຄືກັບການຝຶກອົບຮົມເຄືອຂ່າຍ neural ເພື່ອຮຽນຮູ້ຈາກຂໍ້ມູນແລະດັດແປງຕົວກໍານົດການຂອງພວກເຂົາເພື່ອຫຼຸດຜ່ອນຄວາມຜິດພາດຂອງການຄາດຄະເນ.

ຕົວຢ່າງລາຍລະອຽດຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍ Gradient

ຂໍໃຫ້ເບິ່ງຕົວຢ່າງລາຍລະອຽດເພີ່ມເຕີມເພື່ອໃຫ້ມີຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບເຕັກນິກການສືບເຊື້ອສາຍ gradient.

ພິຈາລະນາຟັງຊັນ 2D f(x) = x2, ເຊິ່ງສ້າງເສັ້ນໂຄ້ງ parabolic ພື້ນຖານທີ່ມີຕໍາ່ສຸດທີ່ (0,0). ສູດການຄິດໄລ່ການສືບເຊື້ອສາຍ gradient ຈະຖືກນໍາໃຊ້ເພື່ອກໍານົດຈຸດຫນ້ອຍນີ້.

ຂັ້ນຕອນທີ 1: ການເລີ່ມຕົ້ນ

ຂັ້ນຕອນການສືບເຊື້ອສາຍ gradient ເລີ່ມຕົ້ນໂດຍການເລີ່ມຕົ້ນຄ່າຂອງຕົວແປ x, ສະແດງເປັນ x0.

ມູນຄ່າເບື້ອງຕົ້ນສາມາດມີຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ການປະຕິບັດຂອງ algorithm.

ການເລີ່ມຕົ້ນແບບສຸ່ມຫຼືການຈ້າງຄວາມຮູ້ເບື້ອງຕົ້ນຂອງບັນຫາແມ່ນສອງເຕັກນິກທົ່ວໄປ. ສົມມຸດວ່າ x₀ = 3 ໃນຕອນເລີ່ມຕົ້ນຂອງກໍລະນີຂອງພວກເຮົາ.

ຂັ້ນຕອນທີ 2: ການຄິດໄລ່ Gradient

gradient ຂອງຟັງຊັນ f(x) ຢູ່ຕຳແໜ່ງປັດຈຸບັນ x₀. ຫຼັງຈາກນັ້ນຕ້ອງໄດ້ຮັບການຄິດໄລ່.

gradient ຊີ້ບອກເຖິງຄວາມຊັນ ຫຼືອັດຕາການປ່ຽນແປງຂອງຟັງຊັນໃນຕໍາແໜ່ງສະເພາະນັ້ນ.

ພວກເຮົາຄິດໄລ່ອະນຸພັນກ່ຽວກັບ x ສໍາລັບຟັງຊັນ f(x) = x2, ເຊິ່ງໃຫ້ f'(x) = 2x. ພວກເຮົາໄດ້ຮັບ gradient ຢູ່ທີ່ x0 ເປັນ 2 * 3 = 6 ໂດຍການທົດແທນ x₀ = 3 ເຂົ້າໃນການຄິດໄລ່ gradient.

ຂັ້ນຕອນທີ 3: ອັບເດດພາລາມິເຕີ

ການນໍາໃຊ້ຂໍ້ມູນ gradient, ພວກເຮົາປັບປຸງຄ່າຂອງ x ດັ່ງຕໍ່ໄປນີ້: x = x₀ – α * f'(x₀), α (alpha) ຫມາຍເຖິງອັດຕາການຮຽນຮູ້.

ອັດຕາການຮຽນຮູ້ແມ່ນ hyperparameter ທີ່ກໍານົດຂະຫນາດຂອງແຕ່ລະຂັ້ນຕອນໃນຂະບວນການປັບປຸງ. ການກໍານົດອັດຕາການຮຽນຮູ້ທີ່ເຫມາະສົມແມ່ນສໍາຄັນເພາະວ່າອັດຕາການຮຽນຮູ້ຊ້າສາມາດເຮັດໃຫ້ເກີດ ຂັ້ນຕອນວິທີ ໃຊ້ເວລາຄ້າງຫ້ອງຫຼາຍເກີນໄປເພື່ອບັນລຸຕໍາ່ສຸດທີ່.

ໃນທາງກົງກັນຂ້າມ, ອັດຕາການຮຽນຮູ້ທີ່ສູງສາມາດສົ່ງຜົນໃຫ້ algorithm bounce ຫຼືລົ້ມເຫລວ. ໃຫ້ພວກເຮົາສົມມຸດອັດຕາການຮຽນຮູ້ຂອງ α = 0.1 ສໍາລັບ sake ຂອງຕົວຢ່າງນີ້.

ຂັ້ນຕອນທີ 4: ຕື່ມຂໍ້ມູນໃສ່

ຫຼັງຈາກທີ່ພວກເຮົາມີມູນຄ່າການປັບປຸງຂອງ x, ພວກເຮົາເຮັດຊ້ໍາຂັ້ນຕອນທີ 2 ແລະ 3 ສໍາລັບຈໍານວນທີ່ກໍານົດໄວ້ລ່ວງຫນ້າຂອງ iterations ຫຼືຈົນກ່ວາການປ່ຽນແປງໃນ x ກາຍເປັນຫນ້ອຍ, ຊີ້ໃຫ້ເຫັນເຖິງ convergence.

ວິທີການຄິດໄລ່ gradient, ປັບປຸງຄ່າຂອງ x, ແລະສືບຕໍ່ຂັ້ນຕອນໃນແຕ່ລະ iteration, ໃຫ້ມັນເຂົ້າໃກ້ກັບຕໍາ່ສຸດທີ່.

ຂັ້ນຕອນທີ 5: Convergence

ເທກນິກດັ່ງກ່າວໄດ້ໝູນວຽນມາພາຍຫຼັງສອງສາມຄັ້ງຈົນເຖິງຈຸດທີ່ການປັບປຸງຕື່ມອີກບໍ່ມີຜົນກະທົບທາງດ້ານວັດຖຸ.

ໃນກໍລະນີຂອງພວກເຮົາ, ໃນເວລາທີ່ການທົດສອບຕໍ່ໄປ, x ຈະເຂົ້າໃກ້ 0, ເຊິ່ງແມ່ນຄ່າຕໍາ່ສຸດທີ່ຂອງ f(x) = x^2. ຈໍານວນການເຮັດຊ້ຳທີ່ຈຳເປັນສຳລັບການບັນລຸໄດ້ຖືກກຳນົດໂດຍປັດໄຈເຊັ່ນອັດຕາການຮຽນຮູ້ທີ່ເລືອກແລະຄວາມສັບສົນຂອງໜ້າທີ່ທີ່ຖືກປັບໃຫ້ເໝາະສົມ.
Gradient Descent ຕົວຢ່າງ

ການເລືອກອັດຕາການຮຽນຮູ້ ()

ການເລືອກອັດຕາການຮຽນຮູ້ທີ່ຍອມຮັບໄດ້ () ແມ່ນສໍາຄັນຕໍ່ປະສິດທິພາບຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍຂອງ gradient. ດັ່ງທີ່ໄດ້ກ່າວໄວ້ກ່ອນຫນ້ານີ້, ອັດຕາການຮຽນຮູ້ທີ່ຕໍ່າສາມາດເຮັດໃຫ້ເກີດການລວມຕົວຊ້າ, ໃນຂະນະທີ່ອັດຕາການຮຽນຮູ້ທີ່ສູງສາມາດເຮັດໃຫ້ເກີດຄວາມແຕກແຍກແລະຄວາມລົ້ມເຫລວ.

ການຊອກຫາຄວາມດຸ່ນດ່ຽງທີ່ເຫມາະສົມແມ່ນສໍາຄັນຕໍ່ການຮັບປະກັນວ່າສູດການຄິດໄລ່ຈະເຂົ້າໄປໃນລະດັບຕໍາ່ສຸດທີ່ຕັ້ງໄວ້ຢ່າງມີປະສິດທິພາບເທົ່າທີ່ເປັນໄປໄດ້.

ການປັບອັດຕາການຮຽນຮູ້ມັກຈະເປັນຂັ້ນຕອນການທົດລອງ ແລະຄວາມຜິດພາດໃນພາກປະຕິບັດ. ນັກຄົ້ນຄວ້າແລະນັກປະຕິບັດມັກຈະທົດລອງກັບອັດຕາການຮຽນຮູ້ທີ່ແຕກຕ່າງກັນເພື່ອເບິ່ງວ່າພວກເຂົາມີຜົນກະທົບແນວໃດຕໍ່ການປະສົມປະສານຂອງ algorithm ໃນສິ່ງທ້າທາຍໂດຍສະເພາະຂອງພວກເຂົາ.

ການຈັດການຟັງຊັນທີ່ບໍ່ແມ່ນໂຄນ

ໃນຂະນະທີ່ຕົວຢ່າງກ່ອນຫນ້າມີຫນ້າທີ່ convex ງ່າຍດາຍ, ຫຼາຍບັນຫາການເພີ່ມປະສິດທິພາບຂອງໂລກທີ່ແທ້ຈິງກ່ຽວຂ້ອງກັບຫນ້າທີ່ບໍ່ convex ກັບ minima ທ້ອງຖິ່ນຈໍານວນຫຼາຍ.

ໃນເວລາທີ່ນໍາໃຊ້ gradient descent ໃນກໍລະນີດັ່ງກ່າວ, ວິທີການສາມາດ converge ກັບຕໍາ່ສຸດທີ່ທ້ອງຖິ່ນແທນທີ່ຈະເປັນຕໍາ່ສຸດທີ່ໃນທົ່ວໂລກ.

ຫຼາຍໆຮູບແບບທີ່ກ້າວຫນ້າຂອງການສືບເຊື້ອສາຍ gradient ໄດ້ຖືກພັດທະນາເພື່ອເອົາຊະນະບັນຫານີ້. Stochastic Gradient Descent (SGD) ແມ່ນວິທີໜຶ່ງທີ່ແນະນຳການສຸ່ມໂດຍການເລືອກຊຸດຍ່ອຍຂອງຈຸດຂໍ້ມູນແບບສຸ່ມ (ເອີ້ນວ່າຊຸດຂະໜາດນ້ອຍ) ເພື່ອຄຳນວນ gradient ໃນແຕ່ລະເທື່ອ.

ການເກັບຕົວຢ່າງແບບສຸ່ມນີ້ຊ່ວຍໃຫ້ສູດການຄິດໄລ່ເພື່ອຫຼີກເວັ້ນການ minima ທ້ອງຖິ່ນແລະຄົ້ນຫາພາກສ່ວນໃຫມ່ຂອງພູມສັນຖານຂອງຟັງຊັນ, ເພີ່ມໂອກາດໃນການຄົ້ນພົບຕໍາ່ສຸດທີ່ທີ່ດີກວ່າ.

Adam (Adaptive Moment Estimation) ແມ່ນການປ່ຽນແປງທີ່ໂດດເດັ່ນອີກອັນໜຶ່ງ, ເຊິ່ງເປັນວິທີການເພີ່ມປະສິດທິພາບອັດຕາການຮຽນຮູ້ແບບປັບຕົວ ເຊິ່ງລວມເອົາຜົນປະໂຫຍດຂອງທັງ RMSprop ແລະ momentum.

Adam ດັດແປງອັດຕາການຮຽນຮູ້ສໍາລັບແຕ່ລະພາລາມິເຕີແບບເຄື່ອນໄຫວໂດຍອີງໃສ່ຂໍ້ມູນ gradient ທີ່ຜ່ານມາ, ເຊິ່ງອາດຈະເຮັດໃຫ້ການລວມກັນດີຂຶ້ນໃນຫນ້າທີ່ທີ່ບໍ່ແມ່ນ convex.

ການປ່ຽນແປງການສືບເຊື້ອສາຍແບບ gradient ທີ່ມີຄວາມຊັບຊ້ອນເຫຼົ່ານີ້ໄດ້ພິສູດໃຫ້ເຫັນວ່າມີປະສິດທິພາບໃນການຈັດການໜ້າທີ່ຊັບຊ້ອນທີ່ເພີ່ມຂຶ້ນ ແລະ ໄດ້ກາຍເປັນເຄື່ອງມືມາດຕະຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກ ແລະ ການຮຽນຮູ້ແບບເລິກເຊິ່ງ, ເຊິ່ງບັນຫາການເພີ່ມປະສິດທິພາບທີ່ບໍ່ແມ່ນໂຄນແມ່ນເປັນເລື່ອງທົ່ວໄປ.

ຂັ້ນຕອນທີ 6: ເຫັນຄວາມຄືບຫນ້າຂອງທ່ານ

ໃຫ້ເຮົາເບິ່ງຄວາມຄືບໜ້າຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍຂອງ gradient ເພື່ອໃຫ້ໄດ້ຮັບຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບຂະບວນການຊໍ້າຄືນຂອງມັນ. ພິຈາລະນາກາຟທີ່ມີແກນ x ທີ່ເປັນຕົວແທນການເຮັດຊ້ຳແລະແກນ y ແທນຄ່າຂອງຟັງຊັນ f(x).

ໃນຂະນະທີ່ algorithm iterate, ຄ່າຂອງ x ເຂົ້າຫາສູນແລະ, ດັ່ງນັ້ນ, ຄ່າຟັງຊັນຫຼຸດລົງໃນແຕ່ລະຂັ້ນຕອນ. ເມື່ອວາງແຜນໃນກາຟ, ນີ້ຈະສະແດງແນວໂນ້ມການຫຼຸດລົງທີ່ຊັດເຈນ, ສະທ້ອນໃຫ້ເຫັນເຖິງຄວາມຄືບຫນ້າຂອງ algorithm ໄປສູ່ການບັນລຸຕໍາ່ສຸດທີ່.

ຂັ້ນຕອນທີ 7: ການປັບປ່ຽນອັດຕາການຮຽນຮູ້

ອັດຕາການຮຽນຮູ້ () ເປັນປັດໃຈສໍາຄັນໃນການປະຕິບັດຂອງ algorithm. ໃນທາງປະຕິບັດ, ການກໍານົດອັດຕາການຮຽນຮູ້ທີ່ເຫມາະສົມເລື້ອຍໆຈໍາເປັນຕ້ອງມີການທົດລອງແລະຄວາມຜິດພາດ.

ເຕັກນິກການເພີ່ມປະສິດທິພາບບາງຢ່າງ, ເຊັ່ນຕາຕະລາງອັດຕາການຮຽນຮູ້, ສາມາດປ່ຽນແປງອັດຕາການຮຽນຮູ້ແບບເຄື່ອນໄຫວໃນລະຫວ່າງການຝຶກອົບຮົມ, ເລີ່ມຕົ້ນດ້ວຍມູນຄ່າທີ່ສູງຂຶ້ນແລະຫຼຸດລົງເທື່ອລະກ້າວຍ້ອນວ່າສູດການຄິດໄລ່ມາຮອດ convergence.

ວິທີການນີ້ຊ່ວຍໃຫ້ມີຄວາມສົມດູນລະຫວ່າງການພັດທະນາຢ່າງໄວວາໃນຕອນເລີ່ມຕົ້ນແລະຄວາມຫມັ້ນຄົງຢູ່ໃກ້ໃນຕອນທ້າຍຂອງຂະບວນການເພີ່ມປະສິດທິພາບ.

ຕົວຢ່າງອີກອັນຫນຶ່ງ: ການຫຼຸດຜ່ອນການທໍາງານຂອງສີ່ຫຼ່ຽມ

ໃຫ້ເບິ່ງຕົວຢ່າງອື່ນເພື່ອໃຫ້ມີຄວາມເຂົ້າໃຈດີຂຶ້ນກ່ຽວກັບການສືບເຊື້ອສາຍ gradient.

ພິຈາລະນາຟັງຊັນສີ່ຫລ່ຽມສອງມິຕິ g(x) = (x – 5)^2. ຢູ່ທີ່ x = 5, ຟັງຊັນນີ້ເຊັ່ນດຽວກັນມີຕໍາ່ສຸດທີ່. ເພື່ອຊອກຫາຕໍາ່ສຸດທີ່ນີ້, ພວກເຮົາຈະນໍາໃຊ້ການສືບເຊື້ອສາຍ gradient.

1. ການເລີ່ມຕົ້ນ: ໃຫ້ເລີ່ມຕົ້ນດ້ວຍ x0 = 8 ເປັນຈຸດເລີ່ມຕົ້ນຂອງພວກເຮົາ.

2. ຈ່ ງົ ຊອກຫາຄ່ າຂອງ g(x): g'(x) = 2(x − 5). ເມື່ອພວກເຮົາປ່ຽນແທນ x0 = 8, gradient ທີ່ x0 ແມ່ນ 2 * (8 – 5) = 6.

3. ດ້ວຍ = 0.2 ເປັນອັດຕາການຮຽນຮູ້ຂອງພວກເຮົາ, ພວກເຮົາປັບປຸງ x ດັ່ງຕໍ່ໄປນີ້: x = x₀ – α * g'(x₀) = 8 – 0.2 * 6 = 6.8.

4. ເຮັດຊ້ຳ: ພວກເຮົາເຮັດຂັ້ນຕອນທີ 2 ແລະ 3 ຊ້ຳຫຼາຍເທື່ອເທົ່າທີ່ຈຳເປັນຈົນກວ່າຈະຮອດການລວມກັນ. ແຕ່ລະຮອບວຽນເອົາ x ເຂົ້າໃກ້ 5, ຄ່າຕໍ່າສຸດຂອງ g(x) = (x – 5)2.

5. Convergence: ວິທີການສຸດທ້າຍຈະ converge ເປັນ x = 5, ຊຶ່ງເປັນຄ່າຫນ້ອຍສຸດຂອງ g(x) = (x – 5)2.

ການປຽບທຽບອັດຕາການຮຽນຮູ້

ໃຫ້ສົມທຽບຄວາມໄວ convergence ຂອງ gradient descent ສໍາລັບອັດຕາການຮຽນຮູ້ທີ່ແຕກຕ່າງກັນ, ເວົ້າວ່າ α = 0.1, α = 0.2, ແລະ α = 0.5 ໃນຕົວຢ່າງໃຫມ່ຂອງພວກເຮົາ. ພວກເຮົາສາມາດເຫັນໄດ້ວ່າອັດຕາການຮຽນຮູ້ທີ່ຕໍ່າກວ່າ (e. g. = 0.1) ຈະເຮັດໃຫ້ການລວມກັນຍາວກວ່າແຕ່ມີຄວາມຖືກຕ້ອງຕ່ໍາສຸດ.

ອັດຕາການຮຽນຮູ້ທີ່ສູງຂຶ້ນ (e.g., = 0.5) ຈະ converge ໄວຂຶ້ນແຕ່ສາມາດ overshoot ຫຼື oscillate ກ່ຽວກັບຕໍາ່ສຸດທີ່, ຜົນໄດ້ຮັບໃນຄວາມຖືກຕ້ອງທີ່ບໍ່ດີ.

ຕົວຢ່າງ Multimodal ຂອງການຈັດການຟັງຊັນທີ່ບໍ່ໂກນ

ພິຈາລະນາ h(x) = sin(x) + 0.5x, ການທໍາງານທີ່ບໍ່ແມ່ນ convex.

ມີ minima ແລະ maxima ຫຼາຍທ້ອງຖິ່ນສໍາລັບຟັງຊັນນີ້. ອີງຕາມຕໍາແຫນ່ງເລີ່ມຕົ້ນແລະອັດຕາການຮຽນຮູ້, ພວກເຮົາສາມາດ converge ກັບ minima ທ້ອງຖິ່ນໃດຫນຶ່ງໂດຍໃຊ້ gradient descent ມາດຕະຖານ.

ພວກເຮົາສາມາດແກ້ໄຂບັນຫານີ້ໄດ້ໂດຍການໃຊ້ເຕັກນິກການເພີ່ມປະສິດທິພາບຂັ້ນສູງເຊັ່ນ: Adam ຫຼື stochastic gradient descent (SGD). ວິທີການເຫຼົ່ານີ້ໃຊ້ອັດຕາການຮຽນຮູ້ແບບປັບຕົວຫຼືການເກັບຕົວຢ່າງແບບສຸ່ມເພື່ອຄົ້ນຫາພາກພື້ນທີ່ແຕກຕ່າງກັນຂອງພູມສັນຖານຂອງຫນ້າທີ່, ເພີ່ມຄວາມເປັນໄປໄດ້ຂອງການບັນລຸຕໍາ່ສຸດທີ່ດີຂຶ້ນ.

ສະຫຼຸບ

Gradient descent algorithms ແມ່ນເຄື່ອງມືການເພີ່ມປະສິດທິພາບທີ່ມີປະສິດທິພາບທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນອຸດສາຫະກໍາທີ່ກວ້າງຂວາງ. ພວກມັນຄົ້ນພົບຄ່າຕໍ່າສຸດ (ຫຼືສູງສຸດ) ຂອງຟັງຊັນໃດໜຶ່ງໂດຍການອັບເດດພາລາມິເຕີແບບຊ້ຳໆໂດຍອີງໃສ່ທິດທາງຂອງ gradient.

ເນື່ອງຈາກລັກສະນະຊ້ໍາຊ້ອນຂອງ algorithm, ມັນສາມາດຈັດການພື້ນທີ່ທີ່ມີມິຕິລະດັບສູງແລະຫນ້າທີ່ສະລັບສັບຊ້ອນ, ເຮັດໃຫ້ມັນເປັນສິ່ງທີ່ຂາດບໍ່ໄດ້ໃນການຮຽນຮູ້ເຄື່ອງຈັກແລະການປຸງແຕ່ງຂໍ້ມູນ.

ການສືບເຊື້ອສາຍແບບ Gradient ສາມາດແກ້ໄຂຄວາມຫຍຸ້ງຍາກໃນຄວາມເປັນຈິງໄດ້ຢ່າງງ່າຍດາຍ ແລະປະກອບສ່ວນຢ່າງຫຼວງຫຼາຍຕໍ່ການເຕີບໂຕຂອງເຕັກໂນໂລຊີ ແລະການຕັດສິນໃຈທີ່ຂັບເຄື່ອນດ້ວຍຂໍ້ມູນໂດຍການເລືອກອັດຕາການຮຽນຮູ້ຢ່າງລະມັດລະວັງ ແລະນໍາໃຊ້ການປ່ຽນແປງທີ່ກ້າວຫນ້າເຊັ່ນ: stochastic gradient descent ແລະ Adam.

ຕົວຢ່າງຂອງ Gradient Descent Algorithm

Gradient Descent Algorithm ແມ່ນຫຍັງແທ້?

ເປັນຫຍັງພວກເຮົາໃຊ້ວິທີການການສືບເຊື້ອສາຍ Gradient?

ຕົວຢ່າງລາຍລະອຽດຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍ Gradient

ຂັ້ນຕອນທີ 1: ການເລີ່ມຕົ້ນ

ຂັ້ນຕອນທີ 2: ການຄິດໄລ່ Gradient

ຂັ້ນຕອນທີ 3: ອັບເດດພາລາມິເຕີ

ຂັ້ນຕອນທີ 4: ຕື່ມຂໍ້ມູນໃສ່

ຂັ້ນຕອນທີ 5: Convergence

ການເລືອກອັດຕາການຮຽນຮູ້ ()

ການຈັດການຟັງຊັນທີ່ບໍ່ແມ່ນໂຄນ

ຂັ້ນຕອນທີ 6: ເຫັນຄວາມຄືບຫນ້າຂອງທ່ານ

ຂັ້ນຕອນທີ 7: ການປັບປ່ຽນອັດຕາການຮຽນຮູ້

ຕົວຢ່າງອີກອັນຫນຶ່ງ: ການຫຼຸດຜ່ອນການທໍາງານຂອງສີ່ຫຼ່ຽມ

ການປຽບທຽບອັດຕາການຮຽນຮູ້

ຕົວຢ່າງ Multimodal ຂອງການຈັດການຟັງຊັນທີ່ບໍ່ໂກນ

ສະຫຼຸບ

ກ່ຽວກັບ İlke Candan Bengi

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

Colossyan vs Heygen

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

ຕົວ​ຢ່າງ​ຂອງ Gradient Descent Algorithm

Gradient Descent Algorithm ແມ່ນຫຍັງແທ້?

ເປັນ​ຫຍັງ​ພວກ​ເຮົາ​ໃຊ້​ວິ​ທີ​ການ​ການ​ສືບ​ເຊື້ອ​ສາຍ Gradient?

ຕົວຢ່າງລາຍລະອຽດຂອງຂັ້ນຕອນການສືບເຊື້ອສາຍ Gradient

ຂັ້ນຕອນທີ 1: ການເລີ່ມຕົ້ນ

ຂັ້ນຕອນທີ 2: ການຄິດໄລ່ Gradient

ຂັ້ນຕອນທີ 3: ອັບເດດພາລາມິເຕີ

ຂັ້ນຕອນທີ 4: ຕື່ມຂໍ້ມູນໃສ່

ຂັ້ນ​ຕອນ​ທີ 5​: Convergence​

ການເລືອກອັດຕາການຮຽນຮູ້ ()

ການຈັດການຟັງຊັນທີ່ບໍ່ແມ່ນໂຄນ

ຂັ້ນຕອນທີ 6: ເຫັນຄວາມຄືບຫນ້າຂອງທ່ານ

ຂັ້ນຕອນທີ 7: ການປັບປ່ຽນອັດຕາການຮຽນຮູ້

ຕົວຢ່າງອີກອັນຫນຶ່ງ: ການຫຼຸດຜ່ອນການທໍາງານຂອງສີ່ຫຼ່ຽມ

ການປຽບທຽບອັດຕາການຮຽນຮູ້

ຕົວຢ່າງ Multimodal ຂອງການຈັດການຟັງຊັນທີ່ບໍ່ໂກນ

ສະຫຼຸບ

ກ່ຽວ​ກັບ İlke Candan Bengi

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

10 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສໍາລັບສື່ມວນຊົນສັງຄົມ

Colossyan vs Heygen

10 ເຄື່ອງມືສ້າງວິດີໂອເຄື່ອນໄຫວ AI ທີ່ດີທີ່ສຸດ

ຕິດຕໍ່ພົວພັນ Reader

ອອກຈາກ Reply ເປັນ ຍົກເລີກການຕອບ

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

ຕົວຢ່າງຂອງ Gradient Descent Algorithm

ເປັນຫຍັງພວກເຮົາໃຊ້ວິທີການການສືບເຊື້ອສາຍ Gradient?

ຂັ້ນຕອນທີ 5: Convergence

ກ່ຽວກັບ İlke Candan Bengi