ພວກເຮົາມີແນວໂນ້ມພຽງແຕ່ໃນຕອນເລີ່ມຕົ້ນຂອງການປະຕິວັດ AI ການຜະລິດໃຫມ່.
Generative artificial intelligence ຫມາຍເຖິງ algorithms ແລະແບບຈໍາລອງທີ່ມີຄວາມສາມາດໃນການສ້າງເນື້ອຫາ. ຜົນຜະລິດຂອງແບບຈໍາລອງດັ່ງກ່າວປະກອບມີຂໍ້ຄວາມ, ສຽງ, ແລະຮູບພາບທີ່ມັກຈະຖືກເຂົ້າໃຈຜິດວ່າເປັນຜົນຜະລິດຂອງມະນຸດທີ່ແທ້ຈິງ.
ຄໍາຮ້ອງສະຫມັກເຊັ່ນ: ສົນທະນາ GPT ໄດ້ສະແດງໃຫ້ເຫັນວ່າ AI ທົ່ວໄປບໍ່ແມ່ນຄວາມແປກໃຫມ່. ໃນປັດຈຸບັນ AI ສາມາດປະຕິບັດຕາມຄໍາແນະນໍາຢ່າງລະອຽດແລະເບິ່ງຄືວ່າມີຄວາມເຂົ້າໃຈຢ່າງເລິກເຊິ່ງກ່ຽວກັບວິທີເຮັດວຽກຂອງໂລກ.
ແຕ່ພວກເຮົາມາຮອດຈຸດນີ້ໄດ້ແນວໃດ? ໃນຄູ່ມືນີ້, ພວກເຮົາຈະຜ່ານບາງບາດກ້າວທີ່ສໍາຄັນໃນການຄົ້ນຄວ້າ AI ທີ່ໄດ້ປູທາງໄປສູ່ການປະຕິວັດ AI ການຜະລິດໃຫມ່ແລະຕື່ນເຕັ້ນນີ້.
ການເພີ່ມຂຶ້ນຂອງເຄືອຂ່າຍ neural
ທ່ານສາມາດຕິດຕາມຕົ້ນກໍາເນີດຂອງ AI ທີ່ທັນສະໄຫມເພື່ອການຄົ້ນຄວ້າກ່ຽວກັບ ການຮຽນຮູ້ເລິກແລະເຄືອຂ່າຍ neural ໃນ 2012.
ໃນປີນັ້ນ, Alex Krizhevsky ແລະທີມງານຂອງລາວຈາກມະຫາວິທະຍາໄລ Toronto ສາມາດບັນລຸສູດການຄິດໄລ່ທີ່ມີຄວາມຖືກຕ້ອງສູງທີ່ສາມາດຈັດປະເພດວັດຖຸ.
ໄດ້ ເຄືອຂ່າຍ neural ທີ່ທັນສະໄຫມ, ທີ່ຮູ້ຈັກໃນປັດຈຸບັນເປັນ AlexNet, ສາມາດຈັດປະເພດວັດຖຸໃນຖານຂໍ້ມູນຮູບພາບ ImageNet ທີ່ມີອັດຕາຄວາມຜິດພາດຕ່ໍາກວ່າຫຼາຍ runner-up.
ເຄືອຂ່າຍ Neural ແມ່ນ algorithms ທີ່ໃຊ້ເຄືອຂ່າຍຂອງຫນ້າທີ່ທາງຄະນິດສາດເພື່ອຮຽນຮູ້ພຶດຕິກໍາສະເພາະໃດຫນຶ່ງໂດຍອີງໃສ່ຂໍ້ມູນການຝຶກອົບຮົມບາງຢ່າງ. ຕົວຢ່າງ, ທ່ານສາມາດປ້ອນຂໍ້ມູນທາງການແພດເຄືອຂ່າຍ neural ເພື່ອຝຶກອົບຮົມແບບຈໍາລອງໃນການວິນິດໄສພະຍາດເຊັ່ນມະເຮັງ.
ຄວາມຫວັງແມ່ນວ່າເຄືອຂ່າຍ neural ຄ່ອຍໆຊອກຫາຮູບແບບໃນຂໍ້ມູນແລະກາຍເປັນຄວາມຖືກຕ້ອງຫຼາຍເມື່ອຂໍ້ມູນໃຫມ່.
AlexNet ເປັນຄໍາຮ້ອງສະຫມັກທີ່ກ້າວຫນ້າຂອງ a ເຄືອຂ່າຍ neural convolutional ຫຼື CNNs. ຄໍາວ່າ "convolutional" ຫມາຍເຖິງການເພີ່ມເຕີມຂອງຊັ້ນ convolutional ເຊິ່ງເນັ້ນໃສ່ຂໍ້ມູນທີ່ມີຄວາມໃກ້ຊິດກັນຫຼາຍຂຶ້ນ.
ໃນຂະນະທີ່ CNNs ເປັນຄວາມຄິດໃນຊຸມປີ 1980, ພວກເຂົາພຽງແຕ່ເລີ່ມໄດ້ຮັບຄວາມນິຍົມໃນຕົ້ນປີ 2010 ເມື່ອເຕັກໂນໂລຢີ GPU ຫລ້າສຸດໄດ້ຊຸກຍູ້ເຕັກໂນໂລຢີໄປສູ່ຄວາມສູງໃຫມ່.
ຄວາມສໍາເລັດຂອງ CNNs ໃນພາກສະຫນາມຂອງ ວິໄສທັດຄອມພິວເຕີ ເຮັດໃຫ້ມີຄວາມສົນໃຈຫຼາຍໃນການຄົ້ນຄວ້າຂອງເຄືອຂ່າຍ neural.
ຍັກໃຫຍ່ເຕັກໂນໂລຢີເຊັ່ນ Google ແລະ Facebook ໄດ້ຕັດສິນໃຈປ່ອຍກອບ AI ຂອງຕົນເອງໃຫ້ສາທາລະນະຊົນ. APIs ລະດັບສູງເຊັ່ນ Keras ໃຫ້ຜູ້ໃຊ້ການໂຕ້ຕອບທີ່ເປັນມິດກັບຜູ້ໃຊ້ເພື່ອທົດລອງກັບເຄືອຂ່າຍ neural ເລິກ.
CNNs ແມ່ນດີເລີດໃນການຮັບຮູ້ຮູບພາບແລະການວິເຄາະວິດີໂອແຕ່ມີບັນຫາໃນເວລາທີ່ມັນມາກັບການແກ້ໄຂບັນຫາພາສາ. ຂໍ້ຈໍາກັດນີ້ໃນການປຸງແຕ່ງພາສາທໍາມະຊາດອາດມີເພາະວ່າຮູບພາບແລະຂໍ້ຄວາມແມ່ນຕົວຈິງແລ້ວບັນຫາທີ່ແຕກຕ່າງກັນໂດຍພື້ນຖານ.
ຕົວຢ່າງ: ຖ້າທ່ານມີຕົວແບບທີ່ຈັດປະເພດວ່າຮູບພາບໃດມີໄຟຈະລາຈອນ, ໄຟຈະລາຈອນໃນຄໍາຖາມສາມາດປາກົດຢູ່ບ່ອນໃດກໍ່ຕາມໃນຮູບ. ຢ່າງໃດກໍຕາມ, ປະເພດຂອງການຜ່ອນຄາຍນີ້ບໍ່ໄດ້ຜົນດີໃນພາສາ. ປະໂຫຍກທີ່ວ່າ "Bob ກິນປາ" ແລະ "ປາກິນ Bob" ມີຄວາມຫມາຍແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍເຖິງແມ່ນວ່າຈະໃຊ້ຄໍາດຽວກັນ.
ມັນໄດ້ກາຍເປັນທີ່ຊັດເຈນວ່ານັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງຊອກຫາວິທີການໃຫມ່ເພື່ອແກ້ໄຂບັນຫາທີ່ກ່ຽວຂ້ອງກັບພາສາຂອງມະນຸດ.
Transformers ປ່ຽນແປງທຸກສິ່ງທຸກຢ່າງ
ໃນ 2017, a ຄົ້ນຄວ້າວິໄຈ ຫົວຂໍ້ "ເອົາໃຈໃສ່ແມ່ນສິ່ງທີ່ທ່ານຕ້ອງການ" ສະເຫນີເຄືອຂ່າຍປະເພດໃຫມ່: Transformer.
ໃນຂະນະທີ່ CNNs ເຮັດວຽກໂດຍການກັ່ນຕອງບາງສ່ວນຂອງຮູບພາບຊ້ໍາຊ້ອນ, transformers ເຊື່ອມຕໍ່ທຸກອົງປະກອບໃນຂໍ້ມູນກັບທຸກອົງປະກອບອື່ນໆ. ນັກຄົ້ນຄວ້າເອີ້ນຂະບວນການນີ້ວ່າ "ການເອົາໃຈໃສ່ຕົນເອງ".
ໃນເວລາທີ່ພະຍາຍາມວິເຄາະປະໂຫຍກ, CNNs ແລະ transformers ເຮັດວຽກແຕກຕ່າງກັນຫຼາຍ. ໃນຂະນະທີ່ CNN ຈະສຸມໃສ່ການສ້າງການເຊື່ອມຕໍ່ກັບຄໍາສັບຕ່າງໆທີ່ຢູ່ໃກ້ກັບກັນແລະກັນ, ເຄື່ອງຫັນປ່ຽນຈະສ້າງການເຊື່ອມຕໍ່ລະຫວ່າງແຕ່ລະຄໍາແລະທຸກໆປະໂຫຍກ.
ຂະບວນການເອົາໃຈໃສ່ຕົນເອງແມ່ນສ່ວນຫນຶ່ງທີ່ສໍາຄັນຂອງການເຂົ້າໃຈພາສາຂອງມະນຸດ. ໂດຍການຊູມອອກແລະເບິ່ງວ່າປະໂຫຍກທັງຫມົດສອດຄ່ອງກັນແນວໃດ, ເຄື່ອງຈັກສາມາດມີຄວາມເຂົ້າໃຈທີ່ຊັດເຈນກວ່າກ່ຽວກັບໂຄງສ້າງຂອງປະໂຫຍກ.
ເມື່ອຮູບແບບການຫັນປ່ຽນທໍາອິດຖືກປ່ອຍອອກມາ, ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ສະຖາປັດຕະຍະກໍາໃຫມ່ໃນໄວໆນີ້ເພື່ອໃຊ້ປະໂຫຍດຈາກຈໍານວນຂໍ້ມູນທີ່ບໍ່ຫນ້າເຊື່ອທີ່ພົບເຫັນຢູ່ໃນອິນເຕີເນັດ.
GPT-3 ແລະອິນເຕີເນັດ
ໃນປີ 2020, OpenAI's GPT-3 ແບບຈໍາລອງສະແດງໃຫ້ເຫັນວິທີການປະສິດທິພາບການຫັນເປັນ. GPT-3 ສາມາດອອກຂໍ້ຄວາມທີ່ເບິ່ງຄືວ່າເກືອບບໍ່ສາມາດແຍກອອກຈາກມະນຸດໄດ້. ສ່ວນຫນຶ່ງຂອງສິ່ງທີ່ເຮັດໃຫ້ GPT-3 ມີອໍານາດຫຼາຍແມ່ນຈໍານວນຂໍ້ມູນການຝຶກອົບຮົມທີ່ໃຊ້. ຊຸດຂໍ້ມູນກ່ອນການຝຶກອົບຮົມຂອງຕົວແບບສ່ວນໃຫຍ່ມາຈາກຊຸດຂໍ້ມູນທີ່ເອີ້ນວ່າ Common Crawl ເຊິ່ງມາພ້ອມກັບຫຼາຍກວ່າ 400 ຕື້ tokens.
ໃນຂະນະທີ່ຄວາມສາມາດຂອງ GPT-3 ໃນການສ້າງຂໍ້ຄວາມຂອງມະນຸດທີ່ແທ້ຈິງແມ່ນພື້ນຖານຂອງຕົນເອງ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບວິທີທີ່ຕົວແບບດຽວກັນສາມາດແກ້ໄຂວຽກງານອື່ນໆ.
ຕົວຢ່າງ, ຮູບແບບ GPT-3 ດຽວກັນທີ່ທ່ານສາມາດນໍາໃຊ້ເພື່ອສ້າງ tweet ຍັງສາມາດຊ່ວຍໃຫ້ທ່ານສະຫຼຸບຂໍ້ຄວາມ, ຂຽນຫຍໍ້ຫນ້າໃຫມ່, ແລະຈົບເລື່ອງ. ຮູບແບບພາສາ ໄດ້ກາຍເປັນທີ່ມີອໍານາດຫຼາຍທີ່ປະຈຸບັນພວກເຂົາເປັນເຄື່ອງມືທົ່ວໄປທີ່ຈໍາເປັນທີ່ປະຕິບັດຕາມຄໍາສັ່ງປະເພດໃດກໍ່ຕາມ.
ລັກສະນະທົ່ວໄປຂອງ GPT-3 ໄດ້ອະນຸຍາດໃຫ້ສໍາລັບຄໍາຮ້ອງສະຫມັກດັ່ງກ່າວ GitHub Copilot, ເຊິ່ງອະນຸຍາດໃຫ້ນັກຂຽນໂປລແກລມສ້າງລະຫັດການເຮັດວຽກຈາກພາສາອັງກິດທໍາມະດາ.
ຮູບແບບການແຜ່ກະຈາຍ: ຈາກຂໍ້ຄວາມໄປຫາຮູບພາບ
ຄວາມຄືບຫນ້າຂອງເຄື່ອງຫັນປ່ຽນແລະ NLP ຍັງໄດ້ເປີດທາງໃຫ້ແກ່ AI ການຜະລິດໃນດ້ານອື່ນໆ.
ໃນໂລກຂອງວິໄສທັດຄອມພິວເຕີ, ພວກເຮົາໄດ້ກວມເອົາແລ້ວວ່າການຮຽນຮູ້ເລິກເຊິ່ງເຮັດໃຫ້ເຄື່ອງຈັກເຂົ້າໃຈຮູບພາບ. ຢ່າງໃດກໍຕາມ, ພວກເຮົາຍັງຈໍາເປັນຕ້ອງຊອກຫາວິທີການສໍາລັບ AI ເພື່ອສ້າງຮູບພາບດ້ວຍຕົນເອງແທນທີ່ຈະພຽງແຕ່ຈັດປະເພດໃຫ້ເຂົາເຈົ້າ.
ຮູບແບບຮູບພາບທົ່ວໄປເຊັ່ນ DALL-E 2, Stable Diffusion, ແລະ Midjourney ໄດ້ກາຍເປັນທີ່ນິຍົມຍ້ອນວິທີການທີ່ເຂົາເຈົ້າສາມາດປ່ຽນການປ້ອນຂໍ້ຄວາມເປັນຮູບພາບ.
ຮູບແບບຮູບພາບເຫຼົ່ານີ້ອີງໃສ່ສອງລັກສະນະທີ່ສໍາຄັນ: ຮູບແບບທີ່ເຂົ້າໃຈຄວາມສໍາພັນລະຫວ່າງຮູບພາບແລະຂໍ້ຄວາມແລະຕົວແບບທີ່ສາມາດສ້າງຮູບພາບທີ່ມີຄວາມຄົມຊັດສູງທີ່ກົງກັບວັດສະດຸປ້ອນຂໍ້ມູນ.
OpenAI ຂອງ ຄລິບ (Contrastive Language–Image Pre-training) ແມ່ນຮູບແບບເປີດແຫຼ່ງທີ່ມີຈຸດປະສົງເພື່ອແກ້ໄຂລັກສະນະທໍາອິດ. ດ້ວຍຮູບພາບໃດໜຶ່ງ, ຮູບແບບ CLIP ສາມາດຄາດເດົາຄຳອະທິບາຍຂໍ້ຄວາມທີ່ກ່ຽວຂ້ອງທີ່ສຸດສຳລັບຮູບພາບນັ້ນ.
ຮູບແບບ CLIP ເຮັດວຽກໂດຍການຮຽນຮູ້ວິທີການສະກັດລັກສະນະຮູບພາບທີ່ສໍາຄັນແລະສ້າງການເປັນຕົວແທນຂອງຮູບພາບທີ່ງ່າຍດາຍ.
ເມື່ອຜູ້ໃຊ້ສະຫນອງການປ້ອນຂໍ້ຄວາມຕົວຢ່າງໃຫ້ກັບ DALL-E 2, ການປ້ອນຂໍ້ມູນຈະຖືກປ່ຽນເປັນ “ການຝັງຮູບພາບ” ໂດຍໃຊ້ຕົວແບບ CLIP. ເປົ້າຫມາຍໃນປັດຈຸບັນແມ່ນເພື່ອຊອກຫາວິທີທີ່ຈະສ້າງຮູບພາບທີ່ກົງກັບການຝັງຮູບພາບທີ່ສ້າງຂຶ້ນ.
ຮູບພາບທີ່ຜະລິດຫລ້າສຸດ AIs ໃຊ້ a ຮູບແບບການແຜ່ກະຈາຍ ເພື່ອຮັບມືກັບວຽກງານຂອງການສ້າງຮູບພາບ. ຮູບແບບການແຜ່ກະຈາຍແມ່ນອີງໃສ່ເຄືອຂ່າຍ neural ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນເພື່ອຮູ້ວິທີການເອົາສິ່ງລົບກວນເພີ່ມເຕີມອອກຈາກຮູບພາບ.
ໃນລະຫວ່າງຂະບວນການຂອງການຝຶກອົບຮົມນີ້, ເຄືອຂ່າຍ neural ໃນທີ່ສຸດສາມາດຮຽນຮູ້ວິທີການສ້າງຮູບພາບທີ່ມີຄວາມລະອຽດສູງຈາກຮູບພາບທີ່ມີສຽງລົບກວນແບບສຸ່ມ. ເນື່ອງຈາກພວກເຮົາມີແຜນທີ່ຂອງຂໍ້ຄວາມແລະຮູບພາບທີ່ສະຫນອງໃຫ້ໂດຍ CLIP, ພວກເຮົາສາມາດເຮັດໄດ້ ຝຶກອົບຮົມຮູບແບບການແຜ່ກະຈາຍ ກ່ຽວກັບການຝັງຮູບພາບ CLIP ເພື່ອສ້າງຂະບວນການເພື່ອສ້າງຮູບພາບໃດໆ.
Generative AI Revolution: ແມ່ນຫຍັງມາຕໍ່ໄປ?
ໃນປັດຈຸບັນພວກເຮົາຢູ່ໃນຈຸດທີ່ຄວາມກ້າວຫນ້າໃນ AI ທົ່ວໄປແມ່ນເກີດຂຶ້ນທຸກໆສອງສາມມື້. ເມື່ອມັນກາຍເປັນເລື່ອງງ່າຍ ແລະງ່າຍຂຶ້ນໃນການສ້າງສື່ປະເພດຕ່າງໆໂດຍໃຊ້ AI, ພວກເຮົາຄວນກັງວົນວ່າມັນຈະສົ່ງຜົນກະທົບຕໍ່ສັງຄົມຂອງພວກເຮົາໄດ້ແນວໃດ?
ໃນຂະນະທີ່ຄວາມກັງວົນຂອງເຄື່ອງຈັກທົດແທນຄົນງານແມ່ນສະເຫມີຢູ່ໃນການສົນທະນານັບຕັ້ງແຕ່ການປະດິດເຄື່ອງຈັກໄອນ້ໍາ, ມັນເບິ່ງຄືວ່າມັນແຕກຕ່າງກັນເລັກນ້ອຍໃນເວລານີ້.
Generative AI ກໍາລັງກາຍເປັນເຄື່ອງມືອະເນກປະສົງທີ່ອາດຈະລົບກວນອຸດສາຫະກໍາທີ່ຖືວ່າປອດໄພຈາກການຄອບຄອງ AI.
ພວກເຮົາຈະຕ້ອງການນັກຂຽນໂປລແກລມຖ້າ AI ສາມາດເລີ່ມຕົ້ນຂຽນລະຫັດທີ່ບໍ່ມີຂໍ້ບົກພ່ອງຈາກຄໍາແນະນໍາຂັ້ນພື້ນຖານຈໍານວນຫນ້ອຍບໍ? ປະຊາຊົນຈະຈ້າງຄົນສ້າງສັນຖ້າພວກເຂົາພຽງແຕ່ສາມາດນໍາໃຊ້ຮູບແບບການຜະລິດເພື່ອຜະລິດຜົນຜະລິດທີ່ພວກເຂົາຕ້ອງການລາຄາຖືກກວ່າບໍ?
ມັນເປັນການຍາກທີ່ຈະຄາດຄະເນອະນາຄົດຂອງການປະຕິວັດ AI ການຜະລິດ. ແຕ່ໃນປັດຈຸບັນທີ່ກ່ອງຂອງ Pandora ໄດ້ເປີດຂຶ້ນ, ຂ້າພະເຈົ້າຫວັງວ່າເຕັກໂນໂລຢີຈະອະນຸຍາດໃຫ້ມີການປະດິດສ້າງທີ່ຫນ້າຕື່ນເຕັ້ນຫຼາຍທີ່ສາມາດປ່ອຍໃຫ້ຜົນກະທົບທາງບວກຕໍ່ໂລກ.
ອອກຈາກ Reply ເປັນ