ໃນຊຸມປີມໍ່ໆມານີ້, ຕົວແບບການຮຽນຮູ້ເລິກເຊິ່ງໄດ້ຮັບຜົນດີກວ່າໃນການເຂົ້າໃຈພາສາມະນຸດ.
ຄິດເຖິງໂຄງການເຊັ່ນ GPT-3, ເຊິ່ງໃນປັດຈຸບັນສາມາດສ້າງບົດຄວາມແລະເວັບໄຊທ໌ທັງຫມົດ. GitHub ໄດ້ນໍາສະເຫນີບໍ່ດົນມານີ້ GitHub Copilot, ການບໍລິການທີ່ສະຫນອງ snippets ລະຫັດທັງຫມົດໂດຍການພຽງແຕ່ອະທິບາຍປະເພດຂອງລະຫັດທີ່ທ່ານຕ້ອງການ.
ນັກຄົ້ນຄວ້າຢູ່ OpenAI, Facebook, ແລະ Google ໄດ້ເຮັດວຽກກ່ຽວກັບວິທີການນໍາໃຊ້ການຮຽນຮູ້ເລິກເຊິ່ງເພື່ອຈັດການກັບວຽກງານອື່ນ: ການໃສ່ຄໍາບັນຍາຍຮູບພາບ. ການນໍາໃຊ້ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ມີລ້ານຂອງການເຂົ້າ, ພວກເຂົາເຈົ້າໄດ້ມາກັບບາງ ແປກໃຈ ຜົນການຄົ້ນຫາ.
ບໍ່ດົນມານີ້, ນັກຄົ້ນຄວ້າເຫຼົ່ານີ້ໄດ້ພະຍາຍາມປະຕິບັດວຽກງານກົງກັນຂ້າມ: ການສ້າງຮູບພາບຈາກຄໍາບັນຍາຍ. ໃນປັດຈຸບັນມັນເປັນໄປໄດ້ທີ່ຈະສ້າງຮູບພາບໃຫມ່ຢ່າງສົມບູນອອກຈາກຄໍາອະທິບາຍບໍ?
ຄູ່ມືນີ້ຈະສໍາຫຼວດສອງຕົວແບບຂໍ້ຄວາມເປັນຮູບພາບທີ່ກ້າວຫນ້າທີ່ສຸດ: OpenAI's DALL-E 2 ແລະ Imagen AI ຂອງ Google. ແຕ່ລະໂຄງການເຫຼົ່ານີ້ໄດ້ແນະນໍາວິທີການພື້ນຖານທີ່ອາດຈະປ່ຽນແປງສັງຄົມດັ່ງທີ່ພວກເຮົາຮູ້.
ແຕ່ທໍາອິດ, ໃຫ້ເຂົ້າໃຈວ່າພວກເຮົາຫມາຍຄວາມວ່າແນວໃດໂດຍການສ້າງຂໍ້ຄວາມເປັນຮູບພາບ.
ການສ້າງຂໍ້ຄວາມເປັນຮູບພາບແມ່ນຫຍັງ?
ແບບຂໍ້ຄວາມເປັນຮູບ ອະນຸຍາດໃຫ້ຄອມພິວເຕີສ້າງຮູບພາບໃຫມ່ແລະເປັນເອກະລັກໂດຍອີງໃສ່ prompts. ໃນປັດຈຸບັນປະຊາຊົນສາມາດສະຫນອງຄໍາອະທິບາຍຂໍ້ຄວາມຂອງຮູບພາບທີ່ເຂົາເຈົ້າຕ້ອງການຜະລິດ, ແລະຕົວແບບຈະພະຍາຍາມສ້າງພາບທີ່ກົງກັບຄໍາອະທິບາຍນັ້ນຢ່າງໃກ້ຊິດເທົ່າທີ່ເປັນໄປໄດ້.
ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກໄດ້ນຳໃຊ້ຊຸດຂໍ້ມູນຂະໜາດໃຫຍ່ທີ່ມີຄູ່ຄຳບັນຍາຍຮູບພາບເພື່ອປັບປຸງປະສິດທິພາບຕື່ມອີກ.
ຂໍ້ຄວາມເປັນຮູບສ່ວນໃຫຍ່ ແບບຈໍາລອງໃຊ້ຮູບແບບພາສາ transformer ການແປຄວາມກະຕຸ້ນເຕືອນ. ປະເພດຂອງຮູບແບບນີ້ແມ່ນ ກ ເຄືອຂ່າຍ neural ທີ່ພະຍາຍາມຮຽນຮູ້ສະພາບການແລະຄວາມຫມາຍ semantic ຂອງພາສາທໍາມະຊາດ.
ຕໍ່ໄປ, ຮູບແບບການຜະລິດເຊັ່ນ: ຮູບແບບການແຜ່ກະຈາຍ ແລະເຄືອຂ່າຍ adversarial ທົ່ວໄປແມ່ນໃຊ້ສໍາລັບການສັງເຄາະຮູບພາບ.
DALLE 2 ແມ່ນຫຍັງ?
DALL-E2 ແມ່ນຕົວແບບຄອມພິວເຕີໂດຍ OpenAI ທີ່ຖືກປ່ອຍອອກມາໃນເດືອນເມສາ 2022. ຮູບແບບດັ່ງກ່າວໄດ້ຖືກຝຶກອົບຮົມຢູ່ໃນຖານຂໍ້ມູນຂອງຮູບພາບທີ່ມີປ້າຍຊື່ລ້ານເພື່ອເຊື່ອມໂຍງຄໍາສັບແລະປະໂຫຍກກັບຮູບພາບ.
ຜູ້ໃຊ້ສາມາດພິມປະໂຫຍກທີ່ງ່າຍດາຍເຊັ່ນ "cat ກິນ lasagna", ແລະ DALL-E 2 ຈະສ້າງການຕີລາຄາຂອງຕົນເອງຂອງປະໂຫຍກທີ່ພະຍາຍາມທີ່ຈະອະທິບາຍ.
ນອກຈາກການສ້າງຮູບພາບຈາກ scratch, DALL-E 2 ຍັງສາມາດແກ້ໄຂຮູບພາບທີ່ມີຢູ່ແລ້ວ. ໃນຕົວຢ່າງຂ້າງລຸ່ມນີ້, DALL-E ສາມາດສ້າງຮູບພາບດັດແກ້ຂອງຫ້ອງທີ່ມີຕຽງນອນເພີ່ມເຕີມ.
DALL-E 2 ແມ່ນພຽງແຕ່ຫນຶ່ງໃນໂຄງການທີ່ຄ້າຍຄືກັນຫຼາຍທີ່ OpenAI ໄດ້ປ່ອຍອອກມາໃນສອງສາມປີຜ່ານມາ. GPT-3 ຂອງ OpenAI ກາຍເປັນຂ່າວເມື່ອມັນເບິ່ງຄືວ່າຈະສ້າງຂໍ້ຄວາມທີ່ມີຮູບແບບທີ່ແຕກຕ່າງກັນ.
ໃນປັດຈຸບັນ, DALL-E 2 ຍັງຢູ່ໃນການທົດສອບເບຕ້າ. ຜູ້ໃຊ້ທີ່ສົນໃຈສາມາດລົງທະບຽນສໍາລັບການຂອງເຂົາເຈົ້າ ບັນຊີລາຍຊື່ການລໍຖ້າ ແລະລໍຖ້າການເຂົ້າເຖິງ.
ມັນເຮັດວຽກແນວໃດ?
ໃນຂະນະທີ່ຜົນໄດ້ຮັບຂອງ DALL-E 2 ແມ່ນປະທັບໃຈ, ທ່ານອາດຈະສົງໄສວ່າມັນເຮັດວຽກແນວໃດ.
DALL-E 2 ເປັນຕົວຢ່າງຂອງການປະຕິບັດແບບ multimodal ຂອງໂຄງການ GPT-3 ຂອງ OpenAI.
ທໍາອິດ, ການເຕືອນຂໍ້ຄວາມຂອງຜູ້ໃຊ້ແມ່ນຖືກຈັດໃສ່ໃນຕົວເຂົ້າລະຫັດຂໍ້ຄວາມທີ່ແຜນທີ່ການເຕືອນກັບພື້ນທີ່ເປັນຕົວແທນ. DALL-E 2 ໃຊ້ຮູບແບບ OpenAI ອື່ນທີ່ເອີ້ນວ່າ CLIP ( Contrastive Language-Image Pre-Training) ເພື່ອໃຫ້ໄດ້ຂໍ້ມູນ semantic ຈາກພາສາທໍາມະຊາດ.
ຕໍ່ໄປ, ຮູບແບບທີ່ຮູ້ຈັກເປັນ ກ່ອນ ແຜນທີ່ການເຂົ້າລະຫັດຂໍ້ຄວາມເຂົ້າໃນການເຂົ້າລະຫັດຮູບພາບ. ການເຂົ້າລະຫັດຮູບພາບນີ້ຄວນບັນທຶກຂໍ້ມູນ semantic ທີ່ພົບເຫັນຢູ່ໃນຂັ້ນຕອນການເຂົ້າລະຫັດຂໍ້ຄວາມ.
ເພື່ອສ້າງຮູບພາບຕົວຈິງ, DALL-E 2 ໃຊ້ຕົວຖອດລະຫັດຮູບພາບເພື່ອສ້າງຮູບພາບໂດຍໃຊ້ຂໍ້ມູນ semantic ແລະລາຍລະອຽດການເຂົ້າລະຫັດຮູບພາບ. OpenAI ໃຊ້ສະບັບດັດແກ້ຂອງ ເລື່ອນລອຍ ແບບຈໍາລອງເພື່ອປະຕິບັດການສ້າງຮູບພາບ. GLIDE ອີງໃສ່ a ຮູບແບບການແຜ່ກະຈາຍ ເພື່ອສ້າງຮູບພາບ.
ການເພີ່ມ GLIDE ໃຫ້ກັບຕົວແບບ DALL-E 2 ໄດ້ເປີດໃຫ້ຜົນຜະລິດ photorealistic ຫຼາຍ. ນັບຕັ້ງແຕ່ຮູບແບບ GLIDE ແມ່ນ stochastic ຫຼືກໍານົດແບບສຸ່ມ, ຮູບແບບ DALL-E 2 ສາມາດສ້າງການປ່ຽນແປງໄດ້ຢ່າງງ່າຍດາຍໂດຍການແລ່ນຮູບແບບອີກເທື່ອຫນຶ່ງແລະອີກຄັ້ງ.
ຂໍ້ຈໍາກັດ
ເຖິງວ່າຈະມີຜົນໄດ້ຮັບທີ່ຫນ້າປະທັບໃຈຂອງຮູບແບບ DALL-E 2, ມັນຍັງປະເຊີນກັບຂໍ້ຈໍາກັດບາງຢ່າງ.
ຂໍ້ຄວາມສະກົດ
ການເຕືອນທີ່ພະຍາຍາມເຮັດໃຫ້ DALL-E 2 ສ້າງຂໍ້ຄວາມເປີດເຜີຍວ່າມັນມີຄວາມຫຍຸ້ງຍາກໃນການສະກົດຄໍາ. ຜູ້ຊ່ຽວຊານສົມມຸດວ່ານີ້ອາດຈະເປັນຍ້ອນວ່າຂໍ້ມູນການສະກົດຄໍາບໍ່ແມ່ນສ່ວນຫນຶ່ງຂອງ ຊຸດຂໍ້ມູນການຝຶກອົບຮົມ.
ເຫດຜົນອົງປະກອບ
ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າ DALL-E 2 ຍັງມີຄວາມຫຍຸ້ງຍາກບາງຢ່າງກັບການສົມເຫດສົມຜົນອົງປະກອບ. ເວົ້າງ່າຍໆ, ຮູບແບບສາມາດເຂົ້າໃຈລັກສະນະສ່ວນບຸກຄົນຂອງຮູບພາບໃນຂະນະທີ່ຍັງມີບັນຫາໃນການຄິດໄລ່ຄວາມສໍາພັນລະຫວ່າງລັກສະນະເຫຼົ່ານີ້.
ຕົວຢ່າງ, ຖ້າໃຫ້ " cube ສີແດງຢູ່ເທິງກ້ອນສີຟ້າ", DALL-E ຈະສ້າງ cube ສີຟ້າແລະ cube ສີແດງຢ່າງຖືກຕ້ອງແຕ່ບໍ່ສາມາດຈັດວາງໄດ້ຢ່າງຖືກຕ້ອງ. ຮູບແບບດັ່ງກ່າວຍັງໄດ້ຖືກສັງເກດເຫັນວ່າມີຄວາມຫຍຸ້ງຍາກກັບການກະຕຸ້ນເຕືອນທີ່ຕ້ອງການຈໍານວນສະເພາະຂອງວັດຖຸທີ່ຈະແຕ້ມອອກ.
Bias ໃນຊຸດຂໍ້ມູນ
ຖ້າການເຕືອນບໍ່ມີລາຍລະອຽດອື່ນ, DALL-E ໄດ້ຖືກສັງເກດເຫັນເພື່ອພັນລະນາຄົນສີຂາວຫຼືຕາເວັນຕົກແລະສະພາບແວດລ້ອມ. ຄວາມລຳອຽງທີ່ເປັນຕົວແທນອັນນີ້ເກີດຂຶ້ນຍ້ອນຄວາມອຸດົມສົມບູນຂອງຮູບພາບຕາເວັນຕົກເປັນໃຈກາງໃນຊຸດຂໍ້ມູນ.
ຮູບແບບດັ່ງກ່າວຍັງໄດ້ຖືກສັງເກດເຫັນເພື່ອປະຕິບັດຕາມ stereotypes ບົດບາດຍິງຊາຍ. ຕົວຢ່າງ, ການພິມ "ຜູ້ຮັບໃຊ້ໃນຖ້ຽວບິນ" ໂດຍທົ່ວໄປແລ້ວຈະສ້າງຮູບພາບຂອງຜູ້ຮັບໃຊ້ໃນຍົນ.
Google Imagen AI ແມ່ນຫຍັງ?
ກູໂກຂອງ ຮູບພາບ AI ເປັນຕົວແບບທີ່ມີຈຸດປະສົງເພື່ອສ້າງຮູບພາບທີ່ແທ້ຈິງຈາກການປ້ອນຂໍ້ຄວາມ. ຄ້າຍຄືກັນກັບ DALL-E, ຮູບແບບດັ່ງກ່າວຍັງໃຊ້ຕົວແບບພາສາຕົວປ່ຽນເພື່ອເຂົ້າໃຈຂໍ້ຄວາມ ແລະອາໄສການໃຊ້ຕົວແບບກະຈາຍເພື່ອສ້າງຮູບພາບທີ່ມີຄຸນນະພາບສູງ.
ຄຽງຄູ່ກັບ Imagen, Google ຍັງໄດ້ປ່ອຍຕົວແບບມາດຕະຖານສໍາລັບຕົວແບບຂໍ້ຄວາມເປັນຮູບພາບທີ່ເອີ້ນວ່າ DrawBench. ການນໍາໃຊ້ DrawBench, ພວກເຂົາສາມາດສັງເກດເຫັນວ່າຜູ້ປະເມີນມະນຸດມັກຜົນຜະລິດ Imagen ຫຼາຍກວ່າຮູບແບບອື່ນໆລວມທັງ DALL-E 2.
ມັນເຮັດວຽກແນວໃດ?
ຄ້າຍຄືກັນກັບ DALL-E, Imagen ທໍາອິດປ່ຽນການເຕືອນຂອງຜູ້ໃຊ້ເຂົ້າໄປໃນຂໍ້ຄວາມທີ່ຝັງຜ່ານຕົວເຂົ້າລະຫັດຂໍ້ຄວາມທີ່ຖືກແຊ່ແຂງ.
Imagen ໃຊ້ຮູບແບບການແຜ່ກະຈາຍທີ່ຮຽນຮູ້ວິທີການປ່ຽນຮູບແບບຂອງສິ່ງລົບກວນເປັນຮູບພາບ. ຜົນຜະລິດເບື້ອງຕົ້ນຂອງຮູບພາບເຫຼົ່ານີ້ແມ່ນມີຄວາມລະອຽດຕໍ່າ ແລະຕໍ່ມາໄດ້ຜ່ານຕົວແບບອື່ນທີ່ຮູ້ຈັກກັນວ່າເປັນຕົວແບບການແຜ່ກະຈາຍທີ່ມີຄວາມລະອຽດສູງເພື່ອເພີ່ມຄວາມລະອຽດຂອງພາບສຸດທ້າຍ. ຮູບແບບການແຜ່ກະຈາຍຄັ້ງທໍາອິດໄດ້ຮັບຜົນໄດ້ຮັບຮູບພາບ 64 × 64 pixels ລວງແລະຫຼັງຈາກນັ້ນໄດ້ຖືກ blown ເຖິງຄວາມລະອຽດສູງ 1024 × 1024 ຮູບພາບ.
ອີງຕາມການຄົ້ນຄວ້າຂອງທີມງານ Imagen, ຮູບແບບພາສາທີ່ແຊ່ແຂງຂະຫນາດໃຫຍ່ທີ່ໄດ້ຮັບການຝຶກອົບຮົມພຽງແຕ່ກ່ຽວກັບຂໍ້ມູນຂໍ້ຄວາມແມ່ນຍັງເປັນຕົວເຂົ້າລະຫັດຂໍ້ຄວາມທີ່ມີປະສິດທິພາບສູງສໍາລັບການສ້າງຂໍ້ຄວາມເປັນຮູບພາບ.
ການສຶກສາຍັງແນະນໍາແນວຄວາມຄິດຂອງ thresholding ແບບເຄື່ອນໄຫວ. ວິທີນີ້ເຮັດໃຫ້ຮູບພາບປະກົດຂຶ້ນເປັນຮູບຈິງຫຼາຍຂຶ້ນໂດຍການເພີ່ມນ້ຳໜັກຄຳແນະນຳເມື່ອສ້າງຮູບພາບ.
ປະສິດທິພາບຂອງ DALLE 2 vs Imagen
ຜົນໄດ້ຮັບເບື້ອງຕົ້ນຈາກມາດຕະຖານຂອງ Google ສະແດງໃຫ້ເຫັນວ່າຜູ້ຕອບຂອງມະນຸດມັກຮູບພາບທີ່ສ້າງຂຶ້ນໂດຍ Imagen ຫຼາຍກວ່າ DALL-E 2 ແລະຕົວແບບຂໍ້ຄວາມເປັນຮູບພາບອື່ນໆເຊັ່ນ: Latent Diffusion ແລະ VQGAN+CLIP.
ຜົນຜະລິດທີ່ມາຈາກທີມງານ Imagen ຍັງໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວແບບຂອງພວກເຂົາປະຕິບັດໄດ້ດີຂຶ້ນໃນການສະກົດຄໍາ, ເປັນຈຸດອ່ອນທີ່ຮູ້ຈັກຂອງແບບຈໍາລອງ DALL-E 2.
ຢ່າງໃດກໍ່ຕາມ, ນັບຕັ້ງແຕ່ Google ຍັງບໍ່ທັນໄດ້ປ່ອຍຕົວແບບດັ່ງກ່າວອອກສູ່ສາທາລະນະ, ມັນຍັງຄົງຈະເຫັນໄດ້ວ່າມາດຕະຖານຂອງ Google ຖືກຕ້ອງຫຼາຍປານໃດ.
ສະຫຼຸບ
ການເພີ່ມຂຶ້ນຂອງຕົວແບບຂໍ້ຄວາມເປັນຮູບພາບທີ່ເປັນຮູບຈິງແມ່ນມີຄວາມຂັດແຍ້ງເພາະວ່າຕົວແບບເຫຼົ່ານີ້ແມ່ນສຸກແລ້ວສໍາລັບການນໍາໃຊ້ທີ່ບໍ່ມີຈັນຍາບັນ.
ເທກໂນໂລຍີອາດຈະນໍາໄປສູ່ການສ້າງເນື້ອຫາທີ່ບໍ່ຊັດເຈນຫຼືເປັນເຄື່ອງມືສໍາລັບການເຜີຍແຜ່ຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ. ນັກຄົ້ນຄວ້າຈາກທັງ Google ແລະ OpenAI ຮູ້ກ່ຽວກັບເລື່ອງນີ້, ເຊິ່ງບາງສ່ວນແມ່ນເຫດຜົນທີ່ວ່າເຕັກໂນໂລຢີເຫຼົ່ານີ້ຍັງບໍ່ສາມາດເຂົ້າເຖິງໄດ້ກັບທຸກຄົນ.
ຮູບແບບຂໍ້ຄວາມເປັນຮູບຍັງມີຜົນສະທ້ອນທາງເສດຖະກິດທີ່ສໍາຄັນ. ອາຊີບເຊັ່ນ: ນາງແບບ, ຊ່າງພາບ, ແລະນັກສິລະປິນຈະໄດ້ຮັບຜົນກະທົບບໍ ຖ້າຕົວແບບເຊັ່ນ DALL-E ກາຍເປັນກະແສຫຼັກ?
ໃນປັດຈຸບັນ, ຮູບແບບເຫຼົ່ານີ້ຍັງມີຂໍ້ຈໍາກັດ. ການຖືຮູບພາບທີ່ສ້າງໂດຍ AI ເຂົ້າໃນການກວດສອບຈະເປີດເຜີຍຄວາມບໍ່ສົມບູນຂອງມັນ. ດ້ວຍທັງ OpenAI ແລະ Google ແຂ່ງຂັນກັນສໍາລັບຮູບແບບທີ່ມີປະສິດທິພາບທີ່ສຸດ, ມັນອາດຈະເປັນເລື່ອງທີ່ໃຊ້ເວລາກ່ອນທີ່ຜົນຜະລິດທີ່ສົມບູນແບບຢ່າງແທ້ຈິງຈະຖືກສ້າງຂຶ້ນ: ຮູບພາບທີ່ບໍ່ສາມາດແຍກອອກຈາກສິ່ງທີ່ແທ້ຈິງ.
ເຈົ້າຄິດວ່າຈະເກີດຫຍັງຂຶ້ນເມື່ອເທັກໂນໂລຢີໄປໄກ?
ອອກຈາກ Reply ເປັນ