ເຄືອຂ່າຍ neural ຂະຫນາດໃຫຍ່ທີ່ໄດ້ຮັບການຝຶກອົບຮົມສໍາລັບການຮັບຮູ້ພາສາແລະການຜະລິດໄດ້ສະແດງໃຫ້ເຫັນຜົນໄດ້ຮັບທີ່ໂດດເດັ່ນໃນຫຼາຍໆວຽກງານໃນຊຸມປີມໍ່ໆມານີ້. GPT-3 ພິສູດວ່າຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ສາມາດຖືກນໍາໃຊ້ເພື່ອການຮຽນຮູ້ການສັກຢາບໍ່ຫຼາຍປານໃດແລະໄດ້ຮັບຜົນໄດ້ຮັບທີ່ດີເລີດໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຂໍ້ມູນສະເພາະຫນ້າວຽກທີ່ກວ້າງຂວາງຫຼືການປ່ຽນແປງຕົວກໍານົດການຕົວແບບ.
Google, Silicon Valley tech behemoth, ໄດ້ນໍາສະເຫນີ PaLM, ຫຼື Pathways Language Model, ໃຫ້ກັບອຸດສາຫະກໍາເຕັກໂນໂລຢີທົ່ວໂລກເປັນຮູບແບບພາສາ AI ຮຸ່ນຕໍ່ໄປ. ກູໂກໄດ້ລວມເອົາໃຫມ່ ປັນຍາປະດິດ ສະຖາປັດຕະຍະກໍາເຂົ້າໄປໃນ PaLM ດ້ວຍຈຸດປະສົງຍຸດທະສາດເພື່ອປັບປຸງຄຸນນະພາບຂອງຕົວແບບພາສາ AI.
ໃນບົດຂຽນນີ້, ພວກເຮົາຈະກວດເບິ່ງ Palm algorithm ໂດຍລະອຽດ, ລວມທັງຕົວກໍານົດການທີ່ໃຊ້ໃນການຝຶກອົບຮົມມັນ, ບັນຫາທີ່ມັນແກ້ໄຂ, ແລະອື່ນໆອີກ.
ແມ່ນຫຍັງ ສູດການຄິດໄລ່ PaLM ຂອງ Google?
Pathways Language Model ແມ່ນຫຍັງ ປລ ຫຍໍ້ມາຈາກ. ນີ້ແມ່ນວິທີການໃຫມ່ພັດທະນາໂດຍກູໂກໃນຄໍາສັ່ງທີ່ຈະເພີ່ມຄວາມເຂັ້ມແຂງສະຖາປັດຕະ Pathways AI. ເປົ້າຫມາຍຕົ້ນຕໍຂອງໂຄງສ້າງແມ່ນເພື່ອເຮັດກິດຈະກໍາທີ່ແຕກຕ່າງກັນຫຼາຍລ້ານໃນເວລາດຽວກັນ.
ສິ່ງເຫຼົ່ານີ້ລວມມີທຸກຢ່າງຕັ້ງແຕ່ການຖອດລະຫັດຂໍ້ມູນທີ່ຊັບຊ້ອນໄປຈົນເຖິງການໃຫ້ເຫດຜົນແບບຫັກລົບ. PaLM ມີຄວາມສາມາດໃນການລື່ນກາຍ AI ທີ່ທັນສະໄຫມເຊັ່ນດຽວກັນກັບມະນຸດໃນວຽກງານພາສາແລະເຫດຜົນ.
ນີ້ປະກອບມີ Few-Shot Learning, ເຊິ່ງ mimics ວິທີທີ່ມະນຸດຮຽນຮູ້ສິ່ງໃຫມ່ແລະປະສົມປະສານຄວາມຮູ້ທີ່ຫຼາກຫຼາຍເພື່ອຮັບມືກັບສິ່ງທ້າທາຍໃຫມ່ທີ່ບໍ່ເຄີຍເຫັນມາກ່ອນ, ດ້ວຍຜົນປະໂຫຍດຂອງເຄື່ອງຈັກທີ່ສາມາດນໍາໃຊ້ຄວາມຮູ້ທັງຫມົດຂອງຕົນເພື່ອແກ້ໄຂບັນຫາສິ່ງທ້າທາຍໃຫມ່; ຕົວຢ່າງໜຶ່ງຂອງທັກສະນີ້ໃນ PaLM ແມ່ນຄວາມສາມາດໃນການອະທິບາຍເລື່ອງຕະຫຼົກທີ່ມັນບໍ່ເຄີຍໄດ້ຍິນມາກ່ອນ.
PaLM ສະແດງໃຫ້ເຫັນຄວາມສາມາດບຸກທະລຸຫຼາຍຢ່າງໃນຫຼາຍໜ້າວຽກທີ່ທ້າທາຍ, ລວມທັງຄວາມເຂົ້າໃຈ ແລະການສ້າງພາສາ, ກິດຈະກໍາທີ່ກ່ຽວຂ້ອງກັບລະຫັດເລກຄະນິດແບບຫຼາຍຂັ້ນຕອນ, ການໃຫ້ເຫດຜົນທົ່ວໄປ, ການແປ ແລະອື່ນໆອີກ.
ມັນໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດໃນການແກ້ໄຂບັນຫາທີ່ສັບສົນໂດຍໃຊ້ຊຸດ NLP ຫຼາຍພາສາ. PaLM ສາມາດນໍາໃຊ້ໄດ້ໂດຍຕະຫຼາດເຕັກໂນໂລຢີທົ່ວໂລກເພື່ອຈໍາແນກສາເຫດແລະຜົນກະທົບ, ການປະສົມແນວຄວາມຄິດ, ເກມທີ່ແຕກຕ່າງກັນ, ແລະສິ່ງອື່ນໆຈໍານວນຫຼາຍ.
ມັນຍັງສາມາດສ້າງຄໍາອະທິບາຍໃນຄວາມເລິກສໍາລັບຫຼາຍສະພາບການໂດຍນໍາໃຊ້ເຫດຜົນຫຼາຍຂັ້ນຕອນ, ພາສາເລິກ, ຄວາມຮູ້ທົ່ວໂລກ, ແລະເຕັກນິກອື່ນໆ.
Google ພັດທະນາລະບົບ PaLM ແນວໃດ?
ສໍາລັບການປະຕິບັດຄວາມກ້າວຫນ້າຂອງ Google ໃນ PaLM, ເສັ້ນທາງແມ່ນຖືກກໍານົດທີ່ຈະຂະຫຍາຍເຖິງ 540 ຕື້ພາລາມິເຕີ. ມັນໄດ້ຖືກຮັບຮູ້ວ່າເປັນຕົວແບບຫນຶ່ງທີ່ສາມາດເພີ່ມປະສິດທິພາບແລະປະສິດທິຜົນທົ່ວໄປໃນທົ່ວໂດເມນຈໍານວນຫລາຍ. Pathways ຢູ່ Google ແມ່ນອຸທິດຕົນເພື່ອພັດທະນາຄອມພິວເຕີ້ແຈກຢາຍສໍາລັບເຄື່ອງເລັ່ງ.
PaLM ແມ່ນຕົວປ່ຽນຕົວແປງສັນຍານແບບຖອດລະຫັດເທົ່ານັ້ນທີ່ໄດ້ຮັບການຝຶກອົບຮົມໂດຍໃຊ້ລະບົບ Pathways. PaLM ໄດ້ປະສົບຜົນສໍາເລັດໃນການປະຕິບັດການຍິງສອງສາມຄັ້ງທີ່ທັນສະໃໝໃນທົ່ວວຽກຫຼາຍ, ອີງຕາມ Google. PaLM ໄດ້ນໍາໃຊ້ລະບົບ Pathways ເພື່ອຂະຫຍາຍການຝຶກອົບຮົມໄປສູ່ການຕັ້ງຄ່າລະບົບ TPU ທີ່ໃຫຍ່ທີ່ສຸດ, ທີ່ເອີ້ນວ່າ 6144 chip ສໍາລັບຄັ້ງທໍາອິດ.
ຊຸດຂໍ້ມູນການຝຶກອົບຮົມສຳລັບຮູບແບບພາສາ AI ແມ່ນປະກອບມາຈາກຊຸດຂໍ້ມູນພາສາອັງກິດ ແລະຫຼາຍພາສາອື່ນໆ. ດ້ວຍຄຳສັບທີ່ “ບໍ່ສູນເສຍ”, ມັນມີເນື້ອໃນເວັບທີ່ມີຄຸນນະພາບສູງ, ການສົນທະນາ, ປຶ້ມ, ລະຫັດ GitHub, Wikipedia, ແລະອື່ນໆອີກ. ຄໍາສັບທີ່ບໍ່ມີການສູນເສຍແມ່ນຮັບຮູ້ສໍາລັບການຮັກສາຊ່ອງຫວ່າງແລະທໍາລາຍຕົວອັກສອນ Unicode ທີ່ບໍ່ມີຢູ່ໃນຄໍາສັບເປັນ bytes.
PaLM ໄດ້ຖືກພັດທະນາໂດຍ Google ແລະ Pathways ໂດຍໃຊ້ສະຖາປັດຕະຍະກໍາຮູບແບບການຫັນເປັນມາດຕະຖານແລະການຕັ້ງຄ່າຕົວຖອດລະຫັດທີ່ປະກອບມີ SwiGLU Activation, ຊັ້ນຂະຫນານ, ການຝັງ RoPE, ການຝັງການປ້ອນຂໍ້ມູນຮ່ວມກັນ, ການໃສ່ໃຈຫຼາຍຄໍາຖາມ, ແລະບໍ່ມີອະຄະຕິຫຼືຄໍາສັບຕ່າງໆ. ໃນທາງກົງກັນຂ້າມ, PaLM ແມ່ນກຽມພ້ອມທີ່ຈະສະຫນອງພື້ນຖານທີ່ເຂັ້ມແຂງສໍາລັບຮູບແບບພາສາ AI ຂອງ Google ແລະ Pathways.
ພາລາມິເຕີທີ່ໃຊ້ໃນການຝຶກອົບຮົມ PaLM
ໃນປີກາຍນີ້, Google ໄດ້ເປີດຕົວ Pathways, ຮູບແບບດຽວທີ່ສາມາດຝຶກອົບຮົມໃຫ້ເຮັດຫລາຍພັນຄົນ, ຖ້າບໍ່ແມ່ນລ້ານ, ເອີ້ນວ່າ "ສະຖາປັດຕະຍະກໍາ AI ຮຸ່ນຕໍ່ໄປ" ເພາະວ່າມັນສາມາດເອົາຊະນະຂໍ້ຈໍາກັດຂອງແບບຈໍາລອງທີ່ມີຢູ່ແລ້ວຂອງການຝຶກອົບຮົມເພື່ອເຮັດສິ່ງດຽວ. . ແທນທີ່ຈະຂະຫຍາຍຄວາມສາມາດຂອງຕົວແບບໃນປະຈຸບັນ, ຮູບແບບໃຫມ່ມັກຈະຖືກສ້າງຂຶ້ນຈາກລຸ່ມສຸດເພື່ອເຮັດສໍາເລັດວຽກດຽວ.
ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ສ້າງແບບຈໍາລອງຫຼາຍສິບພັນແບບສໍາລັບຫລາຍສິບພັນກິດຈະກໍາທີ່ແຕກຕ່າງກັນ. ນີ້ແມ່ນວຽກງານທີ່ໃຊ້ເວລາແລະຊັບພະຍາກອນຫຼາຍ.
Google ໄດ້ພິສູດຜ່ານທາງ Pathways ວ່າຕົວແບບດຽວສາມາດຈັດການກິດຈະກໍາທີ່ຫຼາກຫຼາຍ ແລະດຶງດູດເອົາຄວາມສາມາດໃນປະຈຸບັນເພື່ອຮຽນຮູ້ວຽກໃໝ່ໄດ້ໄວ ແລະມີປະສິດທິພາບຫຼາຍຂຶ້ນ.
ຮູບແບບ Multimodal ທີ່ປະກອບມີວິໄສທັດ, ຄວາມເຂົ້າໃຈທາງພາສາ, ແລະການປະມວນຜົນການຟັງທັງຫມົດໃນເວລາດຽວກັນອາດຈະຖືກເປີດໃຊ້ຜ່ານທາງຕ່າງໆ. ຮູບແບບພາສາ Pathways (PaLM) ອະນຸຍາດໃຫ້ຝຶກອົບຮົມຮູບແບບດຽວໃນທົ່ວ TPU v4 Pods ຈໍານວນຫລາຍຂໍຂອບໃຈກັບຕົວແບບພາລາມິເຕີ 540 ຕື້ຂອງມັນ.
PaLM, ຮູບແບບ Transformer ສະເພາະຕົວຖອດລະຫັດທີ່ດົກໜາ, ເຮັດວຽກໄດ້ດີກວ່າການປະຕິບັດການຖ່າຍແບບບໍ່ພໍເທົ່າໃດຄັ້ງໃນຂອບເຂດກ້ວາງຂອງວຽກ. PaLM ກໍາລັງໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບສອງ TPU v4 Pods ທີ່ເຊື່ອມຕໍ່ຜ່ານເຄືອຂ່າຍສູນຂໍ້ມູນ (DCN).
ມັນໃຊ້ເວລາປະໂຫຍດຂອງທັງສອງແບບຂະຫນານແລະຂໍ້ມູນ. ນັກຄົ້ນຄວ້າໄດ້ໃຊ້ໂປເຊດເຊີ TPU v3072 4 ໃນແຕ່ລະ Pod ສໍາລັບ PaLM, ເຊິ່ງເຊື່ອມຕໍ່ກັບ 768 ໂຮດ. ອີງຕາມນັກຄົ້ນຄວ້າ, ນີ້ແມ່ນການຕັ້ງຄ່າ TPU ທີ່ໃຫຍ່ທີ່ສຸດທີ່ໄດ້ຖືກເປີດເຜີຍ, ອະນຸຍາດໃຫ້ພວກເຂົາປັບຂະຫນາດການຝຶກອົບຮົມໂດຍບໍ່ມີການນໍາໃຊ້ເສັ້ນຂະຫນານທໍ່.
ເສັ້ນທໍ່ແມ່ນຂະບວນການລວບລວມຄໍາແນະນໍາຈາກ CPU ຜ່ານທໍ່ໂດຍທົ່ວໄປ. ຊັ້ນຂອງຕົວແບບໄດ້ຖືກແບ່ງອອກເປັນໄລຍະທີ່ສາມາດໄດ້ຮັບການປຸງແຕ່ງໃນຂະຫນານໂດຍຜ່ານຕົວແບບຂະຫນານທໍ່ (ຫຼືຂະຫນານທໍ່).
ຫນ່ວຍຄວາມຈໍາການເປີດໃຊ້ແມ່ນຖືກສົ່ງໄປຫາຂັ້ນຕອນຕໍ່ໄປເມື່ອຂັ້ນຕອນຫນຶ່ງສໍາເລັດການສົ່ງຕໍ່ສໍາລັບ micro-batch. ຫຼັງຈາກນັ້ນ, gradients ຖືກສົ່ງໄປທາງຫລັງເມື່ອຂັ້ນຕອນຕໍ່ໄປນີ້ສໍາເລັດການຂະຫຍາຍພັນທາງຫລັງຂອງມັນ.
ຄວາມສາມາດລະອຽດ PaLM
PaLM ສະແດງຄວາມສາມາດທີ່ແຕກຫັກໃນຂອບເຂດຂອງວຽກງານທີ່ຫຍຸ້ງຍາກ. ນີ້ແມ່ນຕົວຢ່າງຫຼາຍຢ່າງ:
1. ການສ້າງພາສາ ແລະຄວາມເຂົ້າໃຈ
PaLM ໄດ້ຖືກນໍາໄປທົດສອບໃນ 29 ວຽກ NLP ທີ່ແຕກຕ່າງກັນໃນພາສາອັງກິດ.
ບົນພື້ນຖານການສັກຢາບໍ່ຫຼາຍປານໃດ, PaLM 540B ປະຕິບັດໄດ້ດີກວ່າແບບຈໍາລອງຂະຫນາດໃຫຍ່ທີ່ຜ່ານມາເຊັ່ນ GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, ແລະ LaMDA ໃນ 28 ໃນ 29 ວຽກ, ລວມທັງວຽກງານການຕອບຄໍາຖາມແບບເປີດໂດເມນ. , ວຽກງານປິດ ແລະ ສໍາເລັດປະໂຫຍກ, ວຽກງານແບບ Winograd, ວຽກງານການອ່ານຄວາມເຂົ້າໃຈໃນບໍລິບົດ, ວຽກງານການໃຫ້ເຫດຜົນທົ່ວໄປ, ວຽກງານ SuperGLUE, ແລະ inference ທໍາມະຊາດ.
ໃນຫຼາຍວຽກໃຫຍ່, PaLM ສະແດງໃຫ້ເຫັນການຕີຄວາມຫມາຍພາສາທໍາມະຊາດທີ່ດີເລີດແລະທັກສະການຜະລິດ. ຕົວຢ່າງ, ຮູບແບບສາມາດຈໍາແນກລະຫວ່າງສາເຫດແລະຜົນກະທົບ, ເຂົ້າໃຈການປະສົມປະສານແນວຄວາມຄິດໃນບາງສະຖານະການ, ແລະແມ້ກະທັ້ງເດົາຮູບເງົາຈາກ emoji. ເຖິງແມ່ນວ່າພຽງແຕ່ 22% ຂອງຊຸດຝຶກອົບຮົມບໍ່ແມ່ນພາສາອັງກິດ, PaLM ປະຕິບັດໄດ້ດີໃນມາດຕະຖານ NLP ຫຼາຍພາສາ, ລວມທັງການແປພາສາ, ນອກເຫນືອໄປຈາກວຽກງານ NLP ພາສາອັງກິດ.
2. ສົມເຫດສົມຜົນ
PaLM ຜະສົມຜະສານຂະໜາດຕົວແບບກັບລະບົບຕ່ອງໂສ້ຄວາມຄິດທີ່ກະຕຸ້ນໃຫ້ສະແດງທັກສະການບຸກທະລຸກ່ຽວກັບຄວາມທ້າທາຍໃນການໃຫ້ເຫດຜົນທີ່ຕ້ອງການການຄິດເລກຫຼາຍຂັ້ນ ຫຼື ເຫດຜົນທົ່ວໄປ.
LLMs ທີ່ຜ່ານມາ, ເຊັ່ນ Gopher, ໄດ້ຮັບຜົນປະໂຫຍດຫນ້ອຍລົງຈາກຂະຫນາດຕົວແບບໃນແງ່ຂອງການເພີ່ມປະສິດທິພາບ. PaLM 540B ທີ່ມີລະບົບຕ່ອງໂສ້ຂອງຄວາມຄິດທີ່ກະຕຸ້ນເຕືອນຢູ່ໃນສາມເລກເລກຄະນິດແລະສອງຊຸດຂໍ້ມູນການຄິດແບບທໍາມະດາ.
PaLM ປະຕິບັດໄດ້ຄະແນນທີ່ດີທີ່ສຸດທີ່ຜ່ານມາຂອງ 55%, ເຊິ່ງໄດ້ຮັບໂດຍການປັບປຸງແບບຈໍາລອງ GPT-3 175B ກັບຊຸດຝຶກອົບຮົມຂອງ 7500 ບັນຫາແລະປະສົມປະສານກັບເຄື່ອງຄິດເລກພາຍນອກແລະຕົວກວດສອບເພື່ອແກ້ໄຂບັນຫາ 58 ສ່ວນຮ້ອຍໃນ GSM8K, a ມາດຕະຖານຂອງຫລາຍພັນຄໍາຖາມຄະນິດສາດໃນລະດັບໂຮງຮຽນທີ່ມີຄວາມຫຍຸ້ງຍາກໂດຍໃຊ້ 8-shot prompting.
ຄະແນນໃຫມ່ນີ້ແມ່ນຫນ້າສັງເກດໂດຍສະເພາະນັບຕັ້ງແຕ່ມັນເຂົ້າໃກ້ 60% ໂດຍສະເລ່ຍຂອງອຸປະສັກທີ່ມີປະສົບການໂດຍເດັກນ້ອຍ 9-12 ປີ. ມັນຍັງສາມາດຕອບສະໜອງຕໍ່ເລື່ອງຕະຫລົກຕົ້ນສະບັບທີ່ບໍ່ມີຢູ່ໃນອິນເຕີເນັດ.
3. ການສ້າງລະຫັດ
LLMs ຍັງໄດ້ຮັບການສະແດງໃຫ້ເຫັນວ່າປະຕິບັດໄດ້ດີໃນວຽກງານການຂຽນລະຫັດ, ລວມທັງການສ້າງລະຫັດຈາກຄໍາອະທິບາຍພາສາທໍາມະຊາດ (ຂໍ້ຄວາມຫາລະຫັດ), ການແປພາສາລະຫັດລະຫວ່າງພາສາແລະການແກ້ໄຂຄວາມຜິດພາດການລວບລວມ. ເຖິງວ່າຈະມີພຽງແຕ່ 5% ລະຫັດໃນຊຸດຂໍ້ມູນກ່ອນການຝຶກອົບຮົມ, PaLM 540B ປະຕິບັດໄດ້ດີໃນທັງວຽກງານການຂຽນລະຫັດແລະພາສາທໍາມະຊາດໃນຮູບແບບດຽວ.
ການປະຕິບັດການຍິງບໍ່ຫຼາຍປານໃດຂອງມັນແມ່ນ incredible, ຍ້ອນວ່າມັນກົງກັບ Codex 12B ປັບລະອຽດໃນຂະນະທີ່ການຝຶກອົບຮົມທີ່ມີລະຫັດ Python ຫນ້ອຍລົງ 50 ເທົ່າ. ການຄົ້ນຄວ້ານີ້ກັບຄືນມາດ້ວຍການຄົ້ນພົບກ່ອນຫນ້ານີ້ວ່າຕົວແບບຂະຫນາດໃຫຍ່ສາມາດເປັນຕົວຢ່າງທີ່ມີປະສິດທິພາບຫຼາຍກ່ວາແບບຂະຫນາດນ້ອຍເພາະວ່າພວກເຂົາສາມາດຖ່າຍທອດການຮຽນຮູ້ຈາກຫຼາຍໆຢ່າງມີປະສິດທິພາບຫຼາຍຂຶ້ນ. ພາສາການຂຽນໂປແກຼມ ແລະຂໍ້ມູນພາສາທໍາມະດາ.
ສະຫຼຸບ
PaLM ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງລະບົບ Pathways ໃນການປັບຂະຫນາດເປັນພັນໆໂປເຊດເຊີເລັ່ງຫຼາຍກວ່າສອງ TPU v4 Pods ໂດຍການຝຶກອົບຮົມຕົວແບບພາລາມິເຕີ 540 ຕື້ຢ່າງມີປະສິດທິພາບດ້ວຍສູດທີ່ໄດ້ສຶກສາດີ, ສ້າງຕັ້ງຂຶ້ນມາດີຂອງຮູບແບບ Transformer ທີ່ມີຕົວຖອດລະຫັດທີ່ຫນາແຫນ້ນ.
ມັນບັນລຸຄວາມແຕກແຍກຂອງການປະຕິບັດການຍິງບໍ່ຫຼາຍປານໃດໃນທົ່ວລະດັບຂອງການປະມວນຜົນພາສາທໍາມະຊາດ, ເຫດຜົນ, ແລະການທ້າທາຍການຂຽນລະຫັດໂດຍການຊຸກຍູ້ຂອບເຂດຂອງຂະຫນາດຕົວແບບ.
ອອກຈາກ Reply ເປັນ