ບັນຫາຄລາສສິກໃນປັນຍາປະດິດແມ່ນການສະແຫວງຫາເຄື່ອງຈັກທີ່ສາມາດເຂົ້າໃຈພາສາຂອງມະນຸດ.
ຕົວຢ່າງ, ເມື່ອຄົ້ນຫາ "ຮ້ານອາຫານອິຕາລີໃກ້ຄຽງ" ໃນເຄື່ອງຈັກຊອກຫາທີ່ທ່ານມັກ, ສູດການຄິດໄລ່ຕ້ອງວິເຄາະແຕ່ລະຄໍາໃນຄໍາຖາມຂອງທ່ານແລະໃຫ້ຜົນໄດ້ຮັບທີ່ກ່ຽວຂ້ອງ. ແອັບການແປພາສາທີ່ເໝາະສົມຈະຕ້ອງເຂົ້າໃຈສະພາບການຂອງຄຳສັບສະເພາະໃນພາສາອັງກິດ ແລະ ພິຈາລະນາຄວາມແຕກຕ່າງຂອງໄວຍາກອນລະຫວ່າງພາສາຕ່າງໆ.
ວຽກງານທັງຫມົດເຫຼົ່ານີ້ແລະມີຫຼາຍຕົກຢູ່ພາຍໃຕ້ subfield ຂອງວິທະຍາສາດຄອມພິວເຕີທີ່ຮູ້ຈັກເປັນ Natural Language Processing ຫຼື NLP. ຄວາມກ້າວຫນ້າໃນ NLP ໄດ້ເຮັດໃຫ້ຫຼາຍໆຄໍາຮ້ອງສະຫມັກປະຕິບັດໄດ້ຈາກຜູ້ຊ່ວຍ virtual ເຊັ່ນ Alexa ຂອງ Amazon ກັບການກັ່ນຕອງຂີ້ເຫຍື້ອທີ່ກວດພົບອີເມວທີ່ເປັນອັນຕະລາຍ.
ບາດກ້າວບຸກທະລຸຫຼ້າສຸດໃນ NLP ແມ່ນແນວຄວາມຄິດຂອງ a ຮູບແບບພາສາຂະຫນາດໃຫຍ່ ຫຼື LLM. LLMs ເຊັ່ນ GPT-3 ໄດ້ກາຍເປັນທີ່ມີປະສິດທິພາບຫຼາຍທີ່ພວກເຂົາເບິ່ງຄືວ່າຈະປະສົບຜົນສໍາເລັດໃນເກືອບທຸກວຽກງານ NLP ຫຼືກໍລະນີການນໍາໃຊ້.
ໃນບົດຄວາມນີ້, ພວກເຮົາຈະເບິ່ງວ່າ LLMs ແມ່ນຫຍັງ, ຮູບແບບເຫຼົ່ານີ້ໄດ້ຮັບການຝຶກອົບຮົມແນວໃດ, ແລະຂໍ້ຈໍາກັດໃນປະຈຸບັນພວກເຂົາມີ.
ຮູບແບບພາສາຂະຫນາດໃຫຍ່ແມ່ນຫຍັງ?
ໃນຫຼັກການຂອງມັນ, ຮູບແບບພາສາແມ່ນພຽງແຕ່ສູດການຄິດໄລ່ທີ່ຮູ້ວ່າລໍາດັບຂອງຄໍາສັບຕ່າງໆເປັນປະໂຫຍກທີ່ຖືກຕ້ອງ.
ຮູບແບບພາສາທີ່ງ່າຍດາຍຫຼາຍທີ່ໄດ້ຮັບການຝຶກອົບຮົມຢູ່ໃນປື້ມສອງສາມຮ້ອຍຫົວຄວນຈະສາມາດບອກໄດ້ວ່າ "ລາວກັບບ້ານ" ແມ່ນຖືກຕ້ອງກວ່າ "ລາວໄປເຮືອນ".
ຖ້າພວກເຮົາປ່ຽນຊຸດຂໍ້ມູນທີ່ຂ້ອນຂ້າງນ້ອຍດ້ວຍຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ຖືກຂູດມາຈາກອິນເຕີເນັດ, ພວກເຮົາເລີ່ມເຂົ້າຫາແນວຄວາມຄິດຂອງ ຮູບແບບພາສາຂະຫນາດໃຫຍ່.
ການນໍາໃຊ້ ເຄືອຂ່າຍ neural, ນັກຄົ້ນຄວ້າສາມາດຝຶກອົບຮົມ LLMs ກ່ຽວກັບຂໍ້ມູນຂໍ້ຄວາມຈໍານວນຫລາຍ. ເນື່ອງຈາກຈໍານວນຂໍ້ມູນຂໍ້ຄວາມທີ່ຕົວແບບໄດ້ເຫັນ, LLM ກາຍເປັນດີຫຼາຍໃນການຄາດຄະເນຄໍາຕໍ່ໄປໃນລໍາດັບ.
ຮູບແບບດັ່ງກ່າວກາຍເປັນຄວາມຊັບຊ້ອນ, ມັນສາມາດປະຕິບັດວຽກງານ NLP ຫຼາຍ. ວຽກງານເຫຼົ່ານີ້ລວມມີການສະຫຼຸບຂໍ້ຄວາມ, ການສ້າງເນື້ອຫາໃຫມ່, ແລະແມ້ກະທັ້ງການຈໍາລອງການສົນທະນາທີ່ຄ້າຍຄືກັບມະນຸດ.
ຕົວຢ່າງ, ຮູບແບບພາສາ GPT-3 ທີ່ໄດ້ຮັບຄວາມນິຍົມສູງແມ່ນໄດ້ຮັບການຝຶກອົບຮົມດ້ວຍຕົວກໍານົດການຫຼາຍກວ່າ 175 ຕື້ພາລາມິເຕີແລະຖືວ່າເປັນຮູບແບບພາສາທີ່ກ້າວຫນ້າທີ່ສຸດຈົນເຖິງປະຈຸບັນ.
ມັນສາມາດສ້າງລະຫັດທີ່ເຮັດວຽກ, ຂຽນບົດຄວາມທັງຫມົດ, ແລະສາມາດທົດສອບການຕອບຄໍາຖາມກ່ຽວກັບຫົວຂໍ້ໃດຫນຶ່ງ.
LLMs ໄດ້ຮັບການຝຶກອົບຮົມແນວໃດ?
ພວກເຮົາໄດ້ສໍາຜັດສັ້ນໆກ່ຽວກັບຄວາມຈິງທີ່ວ່າ LLMs ເປັນຫນີ້ພະລັງງານຂອງເຂົາເຈົ້າຫຼາຍກັບຂະຫນາດຂອງຂໍ້ມູນການຝຶກອົບຮົມຂອງເຂົາເຈົ້າ. ມີເຫດຜົນວ່າເປັນຫຍັງພວກເຮົາເອີ້ນພວກເຂົາວ່າ "ຂະຫນາດໃຫຍ່" ແບບພາສາຫຼັງຈາກທັງຫມົດ.
ການຝຶກອົບຮົມເບື້ອງຕົ້ນກັບສະຖາປັດຕະຍະກໍາ Transformer
ໃນລະຫວ່າງຂັ້ນຕອນກ່ອນການຝຶກອົບຮົມ, LLMs ໄດ້ຖືກນໍາສະເຫນີໃຫ້ຂໍ້ມູນຂໍ້ຄວາມທີ່ມີຢູ່ເພື່ອຮຽນຮູ້ໂຄງສ້າງທົ່ວໄປແລະກົດລະບຽບຂອງພາສາ.
ໃນຊຸມປີມໍ່ໆມານີ້, LLMs ໄດ້ຮັບການຝຶກອົບຮົມລ່ວງຫນ້າກ່ຽວກັບຊຸດຂໍ້ມູນທີ່ກວມເອົາສ່ວນທີ່ສໍາຄັນຂອງອິນເຕີເນັດສາທາລະນະ. ຕົວຢ່າງ, ຮູບແບບພາສາຂອງ GPT-3 ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນຈາກ ການລວບລວມຂໍ້ມູນທົ່ວໄປ dataset, corpus ຂອງຂໍ້ຄວາມເວັບໄຊຕ໌, ຫນ້າເວັບ, ແລະຫນັງສືດິຈິຕອນ scraped ຈາກຫຼາຍກວ່າ 50 ລ້ານໂດເມນ.
ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້ຖືກປ້ອນເຂົ້າໄປໃນຕົວແບບທີ່ເອີ້ນວ່າ a ການຫັນເປັນ. Transformers ແມ່ນປະເພດຂອງ ເຄືອຂ່າຍ neural ເລິກ ທີ່ເຮັດວຽກທີ່ດີທີ່ສຸດສໍາລັບຂໍ້ມູນຕາມລໍາດັບ.
Transformers ໃຊ້ an ສະຖາປັດຕະຍະກໍາ encoder-decoder ສໍາລັບການຈັດການວັດສະດຸປ້ອນແລະຜົນຜະລິດ. ໂດຍພື້ນຖານແລ້ວ, ຫມໍ້ແປງມີສອງເຄືອຂ່າຍ neural: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ. ຕົວເຂົ້າລະຫັດສາມາດສະກັດຄວາມຫມາຍຂອງຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າແລະເກັບຮັກສາມັນເປັນ vector. ຕົວຖອດລະຫັດຫຼັງຈາກນັ້ນໄດ້ຮັບ vector ແລະຜະລິດການຕີຄວາມຫມາຍຂອງຂໍ້ຄວາມ.
ຢ່າງໃດກໍ່ຕາມ, ແນວຄວາມຄິດທີ່ສໍາຄັນທີ່ອະນຸຍາດໃຫ້ສະຖາປັດຕະຍະກໍາຂອງຫມໍ້ແປງເຮັດວຽກໄດ້ດີແມ່ນການເພີ່ມ a ກົນໄກການເອົາໃຈໃສ່ຕົນເອງ. ແນວຄວາມຄິດຂອງຄວາມສົນໃຈຕົນເອງໄດ້ອະນຸຍາດໃຫ້ຕົວແບບເອົາໃຈໃສ່ກັບຄໍາທີ່ສໍາຄັນທີ່ສຸດໃນປະໂຫຍກໃດຫນຶ່ງ. ກົນໄກເຖິງແມ່ນວ່າພິຈາລະນານ້ໍາຫນັກລະຫວ່າງຄໍາທີ່ຫ່າງໄກກັນຕາມລໍາດັບ.
ຜົນປະໂຫຍດອີກອັນຫນຶ່ງຂອງການເອົາໃຈໃສ່ຕົນເອງແມ່ນວ່າຂະບວນການສາມາດຂະຫນານໄດ້. ແທນທີ່ຈະປະມວນຜົນຂໍ້ມູນຕາມລໍາດັບ, ຮູບແບບເຄື່ອງປ່ຽນສາມາດປະມວນຜົນຂໍ້ມູນເຂົ້າທັງຫມົດໃນເວລາດຽວກັນ. ນີ້ເຮັດໃຫ້ການຫັນປ່ຽນສາມາດຝຶກອົບຮົມຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍຂ້ອນຂ້າງໄວເມື່ອທຽບກັບວິທີການອື່ນໆ.
ການປັບລະອຽດ
ຫຼັງຈາກຂັ້ນຕອນການຝຶກອົບຮົມກ່ອນ, ທ່ານສາມາດເລືອກທີ່ຈະແນະນໍາຂໍ້ຄວາມໃຫມ່ສໍາລັບ LLM ພື້ນຖານທີ່ຈະຝຶກອົບຮົມ. ພວກເຮົາໂທຫາຂະບວນການນີ້ ການປັບລະອຽດ ແລະມັກຈະຖືກນໍາໃຊ້ເພື່ອປັບປຸງຜົນຜະລິດຂອງ LLM ໃນວຽກງານສະເພາະໃດຫນຶ່ງ.
ຕົວຢ່າງ, ທ່ານອາດຈະຕ້ອງການໃຊ້ LLM ເພື່ອສ້າງເນື້ອຫາສໍາລັບບັນຊີ Twitter ຂອງທ່ານ. ພວກເຮົາສາມາດສະຫນອງຕົວແບບທີ່ມີຕົວຢ່າງຈໍານວນຫນຶ່ງຂອງ tweets ຜ່ານມາຂອງທ່ານເພື່ອໃຫ້ມັນເປັນຄວາມຄິດຂອງຜົນຜະລິດທີ່ຕ້ອງການ.
ມີບາງປະເພດຂອງການປັບລະອຽດ.
ການຮຽນຮູ້ພຽງເລັກນ້ອຍ ຫມາຍເຖິງຂະບວນການໃຫ້ຕົວແບບຈໍານວນຕົວຢ່າງເລັກນ້ອຍໂດຍມີຄວາມຄາດຫວັງວ່າຕົວແບບພາສາຈະຄິດວິທີການສ້າງຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນ. ການຮຽນຮູ້ການສັກຢາດຽວ ແມ່ນຂະບວນການທີ່ຄ້າຍຄືກັນຍົກເວັ້ນພຽງແຕ່ຕົວຢ່າງດຽວທີ່ສະຫນອງໃຫ້.
ຂໍ້ຈໍາກັດຂອງຮູບແບບພາສາຂະຫນາດໃຫຍ່
LLMs ເຊັ່ນ GPT-3 ສາມາດປະຕິບັດກໍລະນີການນໍາໃຊ້ຈໍານວນຫລາຍເຖິງແມ່ນວ່າບໍ່ມີການປັບລະອຽດ. ຢ່າງໃດກໍຕາມ, ຮູບແບບເຫຼົ່ານີ້ຍັງມາພ້ອມກັບຂໍ້ຈໍາກັດຂອງຕົນເອງ.
ການຂາດຄວາມເຂົ້າໃຈທາງ Semantic ຂອງໂລກ
ຢູ່ໃນພື້ນຜິວ, LLMs ປະກົດວ່າສະແດງປັນຍາ. ຢ່າງໃດກໍຕາມ, ຮູບແບບເຫຼົ່ານີ້ບໍ່ໄດ້ປະຕິບັດການດຽວກັນ ສະຫມອງຂອງມະນຸດ ບໍ່. LLMs ພຽງແຕ່ອີງໃສ່ການຄິດໄລ່ທາງສະຖິຕິເພື່ອສ້າງຜົນຜະລິດ. ເຂົາເຈົ້າບໍ່ມີຄວາມສາມາດໃນການຫາເຫດຜົນອອກແນວຄວາມຄິດ ແລະແນວຄວາມຄິດດ້ວຍຕົນເອງ.
ດ້ວຍເຫດນີ້, LLM ສາມາດອອກຄໍາຕອບທີ່ບໍ່ມີເຫດຜົນພຽງແຕ່ຍ້ອນວ່າຄໍາສັບຕ່າງໆເບິ່ງຄືວ່າ "ຖືກຕ້ອງ" ຫຼື "ເປັນໄປໄດ້ທາງສະຖິຕິ" ເມື່ອຖືກຈັດໃສ່ໃນຄໍາສັ່ງສະເພາະນັ້ນ.
Hallucinations
ຕົວແບບເຊັ່ນ GPT-3 ຍັງທົນທຸກຈາກການຕອບໂຕ້ທີ່ບໍ່ຖືກຕ້ອງ. LLMs ສາມາດທົນທຸກຈາກປະກົດການທີ່ເອີ້ນວ່າ ຄວາມອວດອົ່ງ ບ່ອນທີ່ຕົວແບບໃຫ້ຜົນຕອບໂຕ້ທີ່ບໍ່ຖືກຕ້ອງຕາມຄວາມເປັນຈິງ ໂດຍບໍ່ມີການຮັບຮູ້ວ່າການຕອບສະໜອງບໍ່ມີພື້ນຖານໃນຄວາມເປັນຈິງ.
ຕົວຢ່າງ, ຜູ້ໃຊ້ອາດຈະຂໍໃຫ້ຕົວແບບເພື່ອອະທິບາຍຄວາມຄິດຂອງ Steve Jobs ກ່ຽວກັບ iPhone ຮຸ່ນຫຼ້າສຸດ. ຮູບແບບດັ່ງກ່າວອາດຈະສ້າງຄໍາເວົ້າຈາກອາກາດບາງໆໂດຍອີງໃສ່ຂໍ້ມູນການຝຶກອົບຮົມຂອງມັນ.
ອະຄະຕິ ແລະຄວາມຮູ້ທີ່ຈຳກັດ
ເຊັ່ນດຽວກັນກັບສູດການຄິດໄລ່ອື່ນໆຈໍານວນຫຼາຍ, ຮູບແບບພາສາຂະຫນາດໃຫຍ່ແມ່ນມັກຈະສືບທອດຄວາມລໍາອຽງທີ່ມີຢູ່ໃນຂໍ້ມູນການຝຶກອົບຮົມ. ໃນຂະນະທີ່ພວກເຮົາເລີ່ມອີງໃສ່ LLMs ຫຼາຍຂຶ້ນເພື່ອດຶງຂໍ້ມູນ, ນັກພັດທະນາຂອງຕົວແບບເຫຼົ່ານີ້ຄວນຊອກຫາວິທີທີ່ຈະຫຼຸດຜ່ອນຜົນກະທົບທີ່ອາດຈະເປັນອັນຕະລາຍຂອງການຕອບໂຕ້ແບບລໍາອຽງ.
ໃນຄວາມສາມາດທີ່ຄ້າຍຄືກັນ, ຕາບອດຂອງຂໍ້ມູນການຝຶກອົບຮົມຂອງຕົວແບບຈະຂັດຂວາງຕົວແບບຂອງມັນເອງ. ໃນປັດຈຸບັນ, ຮູບແບບພາສາຂະຫນາດໃຫຍ່ໃຊ້ເວລາຫຼາຍເດືອນໃນການຝຶກອົບຮົມ. ຮູບແບບເຫຼົ່ານີ້ຍັງອີງໃສ່ຊຸດຂໍ້ມູນທີ່ມີຂອບເຂດຈໍາກັດ. ນີ້ແມ່ນເຫດຜົນທີ່ ChatGPT ພຽງແຕ່ມີຄວາມຮູ້ຈໍາກັດກ່ຽວກັບເຫດການທີ່ເກີດຂຶ້ນໃນປີ 2021 ທີ່ຜ່ານມາ.
ສະຫຼຸບ
ຮູບແບບພາສາຂະຫນາດໃຫຍ່ມີທ່າແຮງທີ່ຈະປ່ຽນແປງຢ່າງແທ້ຈິງວ່າພວກເຮົາພົວພັນກັບເຕັກໂນໂລຢີແລະໂລກຂອງພວກເຮົາໂດຍທົ່ວໄປ.
ຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍທີ່ມີຢູ່ໃນອິນເຕີເນັດໄດ້ໃຫ້ນັກຄົ້ນຄວ້າວິທີການສ້າງແບບຈໍາລອງຄວາມສັບສົນຂອງພາສາ. ຢ່າງໃດກໍຕາມ, ໃນໄລຍະທາງ, ຮູບແບບພາສາເຫຼົ່ານີ້ເບິ່ງຄືວ່າໄດ້ເລືອກເອົາຄວາມເຂົ້າໃຈທີ່ຄ້າຍຄືກັບມະນຸດໃນໂລກຍ້ອນວ່າມັນເປັນ.
ໃນຂະນະທີ່ປະຊາຊົນເລີ່ມໄວ້ວາງໃຈຮູບແບບພາສາເຫຼົ່ານີ້ເພື່ອໃຫ້ຜົນໄດ້ຮັບທີ່ຖືກຕ້ອງ, ນັກຄົ້ນຄວ້າແລະນັກພັດທະນາກໍາລັງຊອກຫາວິທີທີ່ຈະເພີ່ມ guardrails ເພື່ອໃຫ້ເຕັກໂນໂລຢີຍັງຄົງມີຈັນຍາບັນ.
ທ່ານຄິດວ່າອະນາຄົດຂອງ LLMs ແມ່ນຫຍັງ?
ອອກຈາກ Reply ເປັນ