ການຮຽນຮູ້ເສີມ: AI ທີ່ຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງມັນ

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

ການຮຽນຮູ້ເສີມແມ່ນຫຍັງ?
ຕົວຢ່າງງ່າຍໆ: ຕາຕະລາງ 4×4+-
- ນະໂຍບາຍ ແລະລາງວັນ
- ການຂຸດຄົ້ນທຽບກັບການຂູດຮີດ
ຄໍາຮ້ອງສະຫມັກທີ່ເປັນປະໂຫຍດ+-
ສະຫຼຸບ

ລອງນຶກພາບວ່າເຈົ້າກຳລັງພະຍາຍາມສອນຫຸ່ນຍົນໃຫ້ຍ່າງ. ບໍ່ຄືກັບການສອນຄອມພິວເຕີວິທີການຄາດຄະເນລາຄາຫຼັກຊັບຫຼືການຈັດປະເພດຮູບພາບ, ພວກເຮົາບໍ່ມີຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ພວກເຮົາສາມາດນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຫຸ່ນຍົນຂອງພວກເຮົາ.

ໃນຂະນະທີ່ມັນອາດຈະມາກັບທ່ານຕາມທໍາມະຊາດ, ການຍ່າງແມ່ນຕົວຈິງແລ້ວເປັນການກະ ທຳ ທີ່ສັບສົນຫຼາຍ. ການຍ່າງກ້າວໜຶ່ງໂດຍປົກກະຕິປະກອບດ້ວຍກ້າມຊີ້ນຫຼາຍສິບອັນທີ່ເຮັດວຽກຮ່ວມກັນ. ຄວາມພະຍາຍາມ ແລະ ເຕັກນິກທີ່ໃຊ້ໃນການຍ່າງຈາກບ່ອນໜຶ່ງໄປຫາບ່ອນອື່ນແມ່ນຂຶ້ນກັບຫຼາຍໆປັດໃຈ, ລວມທັງວ່າເຈົ້າກຳລັງແບກຫາບອັນໃດອັນໜຶ່ງ ຫຼືວ່າມີທ່າທາງ ຫຼື ອຸປະສັກໃນຮູບແບບອື່ນໆ.

ໃນສະຖານະການເຊັ່ນນີ້, ພວກເຮົາສາມາດໃຊ້ວິທີການທີ່ເອີ້ນວ່າການຮຽນຮູ້ເສີມຫຼື RL. ດ້ວຍ RL, ທ່ານສາມາດ ກຳ ນົດເປົ້າ ໝາຍ ສະເພາະທີ່ທ່ານຕ້ອງການໃຫ້ຕົວແບບຂອງເຈົ້າແກ້ໄຂແລະຄ່ອຍໆໃຫ້ຕົວແບບຮຽນຮູ້ວິທີການເຮັດມັນເອງ.

ໃນບົດຄວາມນີ້, ພວກເຮົາຈະຄົ້ນຫາພື້ນຖານຂອງການຮຽນຮູ້ເສີມແລະວິທີທີ່ພວກເຮົາສາມາດນໍາໃຊ້ກອບ RL ກັບຫຼາຍໆບັນຫາທີ່ແຕກຕ່າງກັນໃນໂລກທີ່ແທ້ຈິງ.

ການຮຽນຮູ້ເສີມແມ່ນຫຍັງ?

ການຮຽນຮູ້ເສີມແມ່ນຫມາຍເຖິງຊຸດຍ່ອຍສະເພາະຂອງ ການຮຽນຮູ້ເຄື່ອງຈັກ ທີ່ສຸມໃສ່ການຊອກຫາວິທີແກ້ໄຂໂດຍການໃຫ້ລາງວັນພຶດຕິກໍາທີ່ຕ້ອງການແລະລົງໂທດພຶດຕິກໍາທີ່ບໍ່ຕ້ອງການ.

ແຜນວາດຂອງໂຄງຮ່າງການຮຽນຮູ້ເສີມ

ບໍ່ເຫມືອນກັບການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ, ວິທີການຮຽນຮູ້ການເສີມສ້າງໂດຍປົກກະຕິບໍ່ມີຊຸດຂໍ້ມູນການຝຶກອົບຮົມທີ່ສະຫນອງຜົນໄດ້ຮັບທີ່ເຫມາະສົມສໍາລັບການປ້ອນຂໍ້ມູນ. ໃນກໍລະນີທີ່ບໍ່ມີຂໍ້ມູນການຝຶກອົບຮົມ, ສູດການຄິດໄລ່ຕ້ອງຊອກຫາວິທີແກ້ໄຂໂດຍຜ່ານການທົດລອງແລະຄວາມຜິດພາດ. ສູດການຄິດໄລ່, ທີ່ພວກເຮົາໂດຍທົ່ວໄປເອີ້ນວ່າເປັນ ຕົວແທນ, ຕ້ອງຊອກຫາວິທີແກ້ໄຂດ້ວຍຕົນເອງໂດຍການພົວພັນກັບ ສະພາບແວດລ້ອມ.

ນັກຄົ້ນຄວ້າຕັດສິນໃຈກ່ຽວກັບຜົນໄດ້ຮັບໂດຍສະເພາະ ລາງວັນ ແລະສິ່ງທີ່ algorithm ສາມາດເຮັດໄດ້. ທຸກໆ ການປະຕິບັດ algorithm ໃຊ້ເວລາຈະໄດ້ຮັບບາງຮູບແບບຂອງຄໍາຄຶດຄໍາເຫັນທີ່ໃຫ້ຄະແນນວິທີການປະຕິບັດໄດ້ດີ. ໃນລະຫວ່າງຂະບວນການຝຶກອົບຮົມ, ວິທີການໃນທີ່ສຸດຈະຊອກຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດເພື່ອແກ້ໄຂບັນຫາສະເພາະໃດຫນຶ່ງ.

ຕົວຢ່າງງ່າຍໆ: ຕາຕະລາງ 4×4

ຂໍໃຫ້ພິຈາລະນາຕົວຢ່າງງ່າຍໆຂອງບັນຫາທີ່ພວກເຮົາສາມາດແກ້ໄຂໄດ້ດ້ວຍການຮຽນຮູ້ເສີມ.

ສົມມຸດວ່າພວກເຮົາມີຕາຂ່າຍໄຟຟ້າ 4×4 ເປັນສະພາບແວດລ້ອມຂອງພວກເຮົາ. ຕົວແທນຂອງພວກເຮົາຖືກຈັດໃສ່ແບບສຸ່ມຢູ່ໃນສີ່ຫຼ່ຽມມົນພ້ອມດ້ວຍອຸປະສັກເລັກນ້ອຍ. ຕາຂ່າຍໄຟຟ້າຈະມີສາມ "ຂຸມ" ອຸປະສັກທີ່ຕ້ອງຫຼີກເວັ້ນແລະລາງວັນ "ເພັດ" ດຽວທີ່ຕົວແທນຕ້ອງຊອກຫາ. ລາຍລະອຽດຄົບຖ້ວນສົມບູນຂອງສະພາບແວດລ້ອມຂອງພວກເຮົາແມ່ນເປັນທີ່ຮູ້ຈັກເປັນຂອງສະພາບແວດລ້ອມ ລັດ.

ການຮຽນຮູ້ເສີມແມ່ນຂຶ້ນກັບຕົວແທນທີ່ພົວພັນກັບສະພາບແວດລ້ອມທີ່ຈຳລອງ

ໃນຮູບແບບ RL ຂອງພວກເຮົາ, ຕົວແທນຂອງພວກເຮົາສາມາດຍ້າຍໄປຫາສີ່ຫລ່ຽມທີ່ຢູ່ໃກ້ຄຽງຕາບໃດທີ່ບໍ່ມີອຸປະສັກໃດໆຂັດຂວາງພວກມັນ. ຊຸດຂອງການປະຕິບັດທີ່ຖືກຕ້ອງທັງຫມົດໃນສະພາບແວດລ້ອມໃດຫນຶ່ງແມ່ນເປັນທີ່ຮູ້ຈັກເປັນ ພື້ນທີ່ປະຕິບັດ. ເປົ້າຫມາຍຂອງຕົວແທນຂອງພວກເຮົາແມ່ນເພື່ອຊອກຫາເສັ້ນທາງທີ່ສັ້ນທີ່ສຸດເພື່ອລາງວັນ.

ຕົວແທນມີພື້ນທີ່ປະຕິບັດຫຼືຊຸດການປະຕິບັດທີ່ຖືກຕ້ອງຢູ່ໃນສະຖານະທີ່ກໍານົດ

ຕົວແທນຂອງພວກເຮົາຈະນໍາໃຊ້ວິທີການຮຽນຮູ້ການເສີມສ້າງເພື່ອຊອກຫາເສັ້ນທາງໄປສູ່ເພັດທີ່ຕ້ອງການຂັ້ນຕອນຫນ້ອຍທີ່ສຸດ. ແຕ່ລະຂັ້ນຕອນທີ່ຖືກຕ້ອງຈະໃຫ້ລາງວັນຫຸ່ນຍົນ ແລະແຕ່ລະຂັ້ນຕອນທີ່ຜິດພາດຈະລົບໃຫ້ລາງວັນຂອງຫຸ່ນຍົນ. ຮູບແບບຈະຄິດໄລ່ລາງວັນທັງໝົດເມື່ອຕົວແທນໄປຮອດເພັດ.

ໃນປັດຈຸບັນທີ່ພວກເຮົາໄດ້ກໍານົດຕົວແທນແລະສະພາບແວດລ້ອມ, ພວກເຮົາຍັງຕ້ອງກໍານົດກົດລະບຽບທີ່ຈະໃຊ້ສໍາລັບການກໍານົດການດໍາເນີນການຕໍ່ໄປທີ່ຕົວແທນຈະປະຕິບັດກັບສະພາບປະຈຸບັນແລະສະພາບແວດລ້ອມຂອງມັນ.

ນະໂຍບາຍ ແລະລາງວັນ

ໃນຮູບແບບການຮຽນຮູ້ເສີມ, ກ ນະໂຍບາຍ ຫມາຍເຖິງຍຸດທະສາດທີ່ໃຊ້ໂດຍຕົວແທນເພື່ອບັນລຸເປົ້າຫມາຍຂອງພວກເຂົາ. ນະໂຍບາຍຂອງຕົວແທນແມ່ນສິ່ງທີ່ຕັດສິນໃຈວ່າຕົວແທນຄວນເຮັດແນວໃດຕໍ່ໄປໂດຍໃຫ້ສະຖານະການໃນປະຈຸບັນຂອງຕົວແທນແລະສະພາບແວດລ້ອມຂອງມັນ.

ຕົວແທນຕ້ອງປະເມີນນະໂຍບາຍທີ່ເປັນໄປໄດ້ທັງໝົດເພື່ອເບິ່ງວ່ານະໂຍບາຍໃດເໝາະສົມທີ່ສຸດ.

ນະໂຍບາຍການປະເມີນຜົນ

ໃນຕົວຢ່າງງ່າຍໆຂອງພວກເຮົາ, ການລົງຈອດເທິງພື້ນທີ່ຫວ່າງເປົ່າຈະສົ່ງຄ່າເປັນ -1. ເມື່ອຕົວແທນລົງພື້ນທີ່ທີ່ມີລາງວັນເພັດ, ພວກເຂົາຈະໄດ້ຮັບມູນຄ່າ 10. ການນໍາໃຊ້ມູນຄ່າເຫຼົ່ານີ້, ພວກເຮົາສາມາດປຽບທຽບນະໂຍບາຍທີ່ແຕກຕ່າງກັນໂດຍໃຊ້ a. ການທໍາງານຂອງຜົນປະໂຫຍດ U.

ຕອນນີ້ໃຫ້ປຽບທຽບຜົນປະໂຫຍດຂອງສອງນະໂຍບາຍທີ່ເຫັນຂ້າງເທິງນີ້:

U(A) = −1 − 1 −1 + 10 = 7

U(B) = −1–1–1–1–1+10 = 5

ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນວ່ານະໂຍບາຍ A ແມ່ນເສັ້ນທາງທີ່ດີກວ່າໃນການຊອກຫາລາງວັນ. ດັ່ງນັ້ນ, ຕົວແທນຈະໃຊ້ເສັ້ນທາງ A ໃນໄລຍະນະໂຍບາຍ B.

ການຂຸດຄົ້ນທຽບກັບການຂູດຮີດ

ການຂຸດຄົ້ນທຽບກັບບັນຫາການຄ້າການຂູດຮີດໃນການຮຽນຮູ້ເສີມແມ່ນບັນຫາທີ່ຕົວແທນຕ້ອງປະເຊີນໃນຂະບວນການຕັດສິນໃຈ.

ຕົວແທນຄວນສຸມໃສ່ການຂຸດຄົ້ນເສັ້ນທາງຫຼືທາງເລືອກໃຫມ່ຫຼືພວກເຂົາຄວນຈະສືບຕໍ່ຂຸດຄົ້ນທາງເລືອກທີ່ພວກເຂົາຮູ້ແລ້ວບໍ?

ຖ້າຕົວແທນເລືອກທີ່ຈະສໍາຫຼວດ, ມີຄວາມເປັນໄປໄດ້ສໍາລັບຕົວແທນທີ່ຈະຊອກຫາທາງເລືອກທີ່ດີກວ່າ, ແຕ່ມັນອາດຈະມີຄວາມສ່ຽງຕໍ່ການເສຍເວລາແລະຊັບພະຍາກອນ. ໃນທາງກົງກັນຂ້າມ, ຖ້າຕົວແທນເລືອກທີ່ຈະຂຸດຄົ້ນວິທີແກ້ໄຂທີ່ມັນຮູ້ແລ້ວ, ມັນອາດຈະພາດທາງເລືອກທີ່ດີກວ່າ.

ຄໍາຮ້ອງສະຫມັກທີ່ເປັນປະໂຫຍດ

ນີ້ແມ່ນບາງວິທີ ນັກຄົ້ນຄວ້າ AI ໄດ້ນໍາໃຊ້ຮູບແບບການຮຽນຮູ້ເສີມເພື່ອແກ້ໄຂບັນຫາໃນຕົວຈິງ:

ການເສີມສ້າງການຮຽນຮູ້ໃນລົດຂັບລົດດ້ວຍຕົນເອງ

ການຮຽນຮູ້ການເສີມກໍາລັງໄດ້ຖືກນໍາໃຊ້ກັບລົດທີ່ຂັບລົດດ້ວຍຕົນເອງເພື່ອປັບປຸງຄວາມສາມາດໃນການຂັບຂີ່ຢ່າງປອດໄພແລະມີປະສິດທິພາບ. ເທັກໂນໂລຍີເຮັດໃຫ້ລົດອັດຕະໂນມັດສາມາດຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງພວກເຂົາແລະສືບຕໍ່ປັບພຶດຕິກໍາຂອງພວກເຂົາເພື່ອເພີ່ມປະສິດທິພາບການປະຕິບັດ.

ການຮຽນຮູ້ເສີມທີ່ໃຊ້ສໍາລັບການຂັບລົດຕົນເອງ

ຕົວຢ່າງ, ບໍລິສັດ AI ທີ່ຕັ້ງຢູ່ລອນດອນ ທາງ ໄດ້ນໍາໃຊ້ຢ່າງສໍາເລັດຜົນຮູບແບບການຮຽນຮູ້ເສີມເລິກສໍາລັບການຂັບລົດອັດຕະໂນມັດ. ໃນການທົດລອງຂອງເຂົາເຈົ້າ, ພວກເຂົາເຈົ້າໄດ້ນໍາໃຊ້ຫນ້າທີ່ໃຫ້ລາງວັນທີ່ເພີ່ມໄລຍະເວລາທີ່ຍານພາຫະນະແລ່ນໄດ້ສູງສຸດໂດຍບໍ່ມີຄົນຂັບຢູ່ເທິງເຮືອສະຫນອງການປ້ອນຂໍ້ມູນ.

ຮູບແບບ RL ຍັງຊ່ວຍໃຫ້ລົດຕັດສິນໃຈໂດຍອີງໃສ່ສະພາບແວດລ້ອມ, ເຊັ່ນ: ຫຼີກເວັ້ນອຸປະສັກຫຼືການລວມເຂົ້າໄປໃນການຈະລາຈອນ. ຕົວແບບເຫຼົ່ານີ້ຕ້ອງຊອກຫາວິທີທີ່ຈະປ່ຽນສະພາບແວດລ້ອມທີ່ຊັບຊ້ອນທີ່ອ້ອມຮອບລົດເປັນພື້ນທີ່ຂອງລັດທີ່ຕົວແບບສາມາດເຂົ້າໃຈໄດ້.

ການຮຽນຮູ້ເສີມໃນຫຸ່ນຍົນ

ນັກຄົ້ນຄວ້າຍັງໄດ້ໃຊ້ການຮຽນຮູ້ເສີມເພື່ອພັດທະນາຫຸ່ນຍົນທີ່ສາມາດຮຽນຮູ້ວຽກງານທີ່ສັບສົນ. ຜ່ານແບບຈໍາລອງ RL ເຫຼົ່ານີ້, ຫຸ່ນຍົນສາມາດສັງເກດເຫັນສະພາບແວດລ້ອມຂອງເຂົາເຈົ້າແລະການຕັດສິນໃຈໂດຍອີງໃສ່ການສັງເກດການຂອງເຂົາເຈົ້າ.

ຕົວຢ່າງ, ການຄົ້ນຄວ້າໄດ້ຖືກສ້າງຂຶ້ນໃນການນໍາໃຊ້ຮູບແບບການຮຽນຮູ້ເສີມເພື່ອໃຫ້ຫຸ່ນຍົນ bipedal ຮຽນຮູ້ວິທີການ ຍ່າງ ດ້ວຍຕົນເອງ.

ເສີມສ້າງການຮຽນຮູ້ການສອນຫຸ່ນຍົນຍ່າງ

ນັກຄົ້ນຄວ້າພິຈາລະນາ RL ເປັນວິທີການທີ່ສໍາຄັນໃນພາກສະຫນາມຂອງຫຸ່ນຍົນ. ການຮຽນຮູ້ການເສີມສ້າງໃຫ້ຕົວແທນຫຸ່ນຍົນມີກອບໃນການຮຽນຮູ້ການກະທຳທີ່ຊັບຊ້ອນທີ່ອາດຈະຍາກໃນວິສະວະກອນ.

ການເສີມສ້າງການຮຽນຮູ້ໃນເກມ

ແບບ RL ໄດ້ຖືກນໍາໃຊ້ເພື່ອຮຽນຮູ້ວິທີການຫລິ້ນເກມວີດີໂອ. ຕົວແທນສາມາດໄດ້ຮັບການສ້າງຕັ້ງຂຶ້ນເພື່ອຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງເຂົາເຈົ້າແລະສືບຕໍ່ປັບປຸງປະສິດທິພາບຂອງເຂົາເຈົ້າໃນເກມ.

ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາຕົວແທນທີ່ສາມາດຫຼິ້ນເກມເຊັ່ນ: chess, Go, ແລະ poker. ໃນປີ 2013, Deepmind ໃຊ້ການຮຽນຮູ້ການເສີມສ້າງຢ່າງເລິກເຊິ່ງເພື່ອໃຫ້ຕົວແບບຮຽນຮູ້ວິທີຫຼິ້ນເກມ Atari ຕັ້ງແຕ່ເລີ່ມຕົ້ນ.

ເກມກະດານ ແລະເກມວີດີໂອຫຼາຍອັນມີພື້ນທີ່ປະຕິບັດທີ່ຈຳກັດ ແລະເປົ້າໝາຍທີ່ກຳນົດໄວ້ເປັນຢ່າງດີ. ລັກສະນະເຫຼົ່ານີ້ເຮັດວຽກກັບປະໂຫຍດຂອງຕົວແບບ RL. ວິທີການ RL ສາມາດເຮັດຊ້ໍາອີກຫຼາຍລ້ານເກມ simulated ເພື່ອຮຽນຮູ້ກົນລະຍຸດທີ່ດີທີ່ສຸດເພື່ອບັນລຸໄຊຊະນະ.

ສະຫຼຸບ

ບໍ່ວ່າຈະເປັນການຮຽນຮູ້ວິທີການຍ່າງຫຼືການຮຽນຮູ້ວິທີການຫລິ້ນວີດີໂອ, ຮູບແບບ RL ໄດ້ຖືກພິສູດວ່າເປັນກອບ AI ທີ່ເປັນປະໂຫຍດສໍາລັບການແກ້ໄຂບັນຫາທີ່ຕ້ອງການການຕັດສິນໃຈທີ່ສັບສົນ.

ໃນຂະນະທີ່ເຕັກໂນໂລຢີສືບຕໍ່ພັດທະນາ, ທັງນັກຄົ້ນຄວ້າແລະນັກພັດທະນາຈະສືບຕໍ່ຊອກຫາຄໍາຮ້ອງສະຫມັກໃຫມ່ທີ່ໃຊ້ປະໂຫຍດຈາກຄວາມສາມາດໃນການສອນຕົນເອງຂອງຕົວແບບ.

ການນຳໃຊ້ພາກປະຕິບັດຕົວຈິງອັນໃດທີ່ທ່ານຄິດວ່າການຮຽນຮູ້ເສີມສາມາດຊ່ວຍໄດ້?

ການຮຽນຮູ້ເສີມ: AI ທີ່ຮຽນຮູ້ຈາກຄວາມຜິດພາດຂອງມັນ

ການຮຽນຮູ້ເສີມແມ່ນຫຍັງ?