MultiModal-GPT: ຊາຍແດນໃຫມ່ໃນການເຊື່ອມໂຍງພາສາແລະວິໄສທັດ

ທ່ານເຄີຍປາດຖະຫນາວ່າທ່ານສາມາດສົນທະນາກັບ AI ທີ່ເຂົ້າໃຈຂໍ້ມູນທັງເວົ້າແລະພາບ? ຕົວແບບ MultiModal-GPT ປະສົມປະສານການປະມວນຜົນພາສາກັບຄວາມເຂົ້າໃຈທາງສາຍຕາ.

ມັນສະຫນອງຄວາມເປັນໄປໄດ້ຂອງການພົວພັນລະຫວ່າງມະນຸດກັບຄອມພິວເຕີທີ່ຖືກຕ້ອງແລະມີຄວາມຫຼາກຫຼາຍ. MultiModal-GPT ສາມາດສະຫນອງຄໍາບັນຍາຍອະທິບາຍ, ນັບລາຍການແຕ່ລະຄົນ, ແລະຕອບສະຫນອງຕໍ່ຄໍາຖາມຂອງຜູ້ໃຊ້ທົ່ວໄປ.

ແຕ່, ມັນເຮັດແນວນັ້ນໄດ້ແນວໃດ? ແລະ, ເຈົ້າສາມາດເຮັດຫຍັງໄດ້ກັບ MultiModal-GPT?

ໃຫ້ພວກເຮົາເອົາເລື່ອງລາວໄປສູ່ຈຸດເລີ່ມຕົ້ນແລະເຂົ້າໃຈຄວາມເປັນໄປໄດ້ທີ່ຢູ່ຂ້າງຫນ້າຂອງພວກເຮົາ.

ດ້ວຍການປະກົດຕົວຂອງຮູບແບບພາສາເຊັ່ນ GPT-4, ເຕັກໂນໂລຢີການປຸງແຕ່ງພາສາທໍາມະຊາດກໍາລັງເປັນພະຍານເຖິງການປະຕິວັດ. ນະວັດຕະກໍາເຊັ່ນ ChatGPT ໄດ້ຖືກລວມເຂົ້າໃນຊີວິດຂອງພວກເຮົາແລ້ວ.

ແລະ, ພວກເຂົາເຈົ້າເບິ່ງຄືວ່າຈະສືບຕໍ່ມາ!

GPT-4 ແລະຂໍ້ຈໍາກັດຂອງມັນ

GPT-4 ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ຫນ້າອັດສະຈັນໃນການສົນທະນາ multimodal ກັບປະຊາຊົນ. ການສຶກສາໄດ້ພະຍາຍາມເຮັດຊ້ໍາການປະຕິບັດນີ້, ແຕ່ເນື່ອງຈາກຈໍານວນ tokens ຮູບພາບທີ່ມີທ່າແຮງສູງ, ລວມທັງຕົວແບບທີ່ມີຂໍ້ມູນສາຍຕາທີ່ຊັດເຈນສາມາດມີລາຄາແພງໃນຄອມພິວເຕີ້.

ຮູບແບບທີ່ມີຢູ່ແລ້ວຍັງບໍ່ລວມເອົາການປັບແຕ່ງການສອນພາສາໃນການສຶກສາຂອງເຂົາເຈົ້າ, ເຊິ່ງຈໍາກັດຄວາມສາມາດຂອງເຂົາເຈົ້າໃນການເຂົ້າຮ່ວມໃນການສົນທະນາຮູບພາບ-ຂໍ້ຄວາມ multiturn zero-shot.

ການສ້າງຂອບ Flamingo

ຮູບແບບໃຫມ່ທີ່ເອີ້ນວ່າ MultiModal-GPT ໄດ້ຖືກພັດທະນາເພື່ອໃຫ້ສາມາດສື່ສານກັບຄົນໂດຍໃຊ້ພາສາແລະສາຍຕາ.

ນັກພັດທະນາໄດ້ໃຊ້ໂຄງການທີ່ເອີ້ນວ່າ ໂຄງຮ່າງການ Flamingo, ເຊິ່ງໃນເມື່ອກ່ອນໄດ້ຖືກຝຶກອົບຮົມເພື່ອເຂົ້າໃຈທັງຂໍ້ຄວາມ ແລະພາບ, ເພື່ອເຮັດໃຫ້ນີ້ເປັນໄປໄດ້.

Flamingo Framework

Flamingo ຕ້ອງການການປ່ຽນແປງບາງຢ່າງ, ເຖິງແມ່ນວ່າ, ຍ້ອນວ່າມັນບໍ່ສາມາດມີການສົນທະນາຂະຫຍາຍທີ່ປະກອບມີຂໍ້ຄວາມແລະຮູບພາບ.

ແບບຈໍາລອງ MultiModal-GPT ທີ່ຖືກປັບປຸງສາມາດລວບລວມຂໍ້ມູນຈາກຮູບພາບແລະປະສົມກັບພາສາເພື່ອເຂົ້າໃຈແລະປະຕິບັດຄໍາສັ່ງຂອງມະນຸດ.

MultiModal-GPT

MultiModal-GPT ແມ່ນປະເພດຂອງຕົວແບບ AI ທີ່ສາມາດປະຕິບັດຕາມການສອບຖາມຂອງມະນຸດຕ່າງໆເຊັ່ນການອະທິບາຍພາບ, ການນັບລາຍການແລະການຕອບຄໍາຖາມ. ມັນເຂົ້າໃຈແລະປະຕິບັດຕາມຄໍາສັ່ງໂດຍໃຊ້ການປະສົມປະສານຂອງຂໍ້ມູນຕາແລະຄໍາເວົ້າ.

ນັກຄົ້ນຄວ້າໄດ້ຝຶກອົບຮົມແບບຈໍາລອງດັ່ງກ່າວໂດຍນໍາໃຊ້ຂໍ້ມູນທັງສາຍຕາແລະພາສາເທົ່ານັ້ນເພື່ອເພີ່ມຄວາມສາມາດຂອງ MultiModal-GPT ເພື່ອສົນທະນາກັບຄົນ. ນອກຈາກນັ້ນ, ມັນໄດ້ເຮັດໃຫ້ມີການປັບປຸງຢ່າງເຫັນໄດ້ຊັດໃນວິທີການປະຕິບັດການສົນທະນາຂອງຕົນ. ມັນຍັງສົ່ງຜົນໃຫ້ມີການປັບປຸງປະສິດທິພາບການສົນທະນາຂອງຕົນ.

ພວກເຂົາເຈົ້າຄົ້ນພົບວ່າການມີຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີຄຸນນະພາບສູງແມ່ນສໍາຄັນຕໍ່ການປະຕິບັດການສົນທະນາທີ່ດີ, ເພາະວ່າຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍທີ່ມີການຕອບໂຕ້ສັ້ນອາດຈະເຮັດໃຫ້ຕົວແບບສາມາດສ້າງຄໍາຕອບທີ່ສັ້ນກວ່າຕໍ່ຄໍາສັ່ງໃດໆ.

ເຈົ້າສາມາດເຮັດຫຍັງໄດ້ກັບ MultiModal-GPT?

ການມີສ່ວນຮ່ວມໃນການສົນທະນາ

ເຊັ່ນດຽວກັນກັບຕົວແບບພາສາທີ່ມາກ່ອນ, ຫນຶ່ງໃນລັກສະນະຕົ້ນຕໍຂອງ MultiModal-GPT ແມ່ນຄວາມສາມາດໃນການເຂົ້າຮ່ວມການສົນທະນາພາສາທໍາມະຊາດ. ນີ້ ໝາຍ ຄວາມວ່າຜູ້ບໍລິໂພກອາດຈະມີສ່ວນຮ່ວມກັບຕົວແບບຄືກັນກັບພວກເຂົາກັບຄົນທີ່ແທ້ຈິງ.

ຕົວຢ່າງ, MultiModal-GPT ສາມາດໃຫ້ລູກຄ້າມີສູດລາຍລະອຽດສໍາລັບການເຮັດ noodles ຫຼືແນະນໍາຮ້ານອາຫານທີ່ເປັນໄປໄດ້ສໍາລັບການກິນເຂົ້ານອກ. ຮູບແບບດັ່ງກ່າວຍັງສາມາດຕອບຄໍາຖາມທົ່ວໄປກ່ຽວກັບຄວາມຕັ້ງໃຈການເດີນທາງຂອງຜູ້ໃຊ້.

Noodles

ການຮັບຮູ້ວັດຖຸ

MultiModal-GPT ສາມາດຮັບຮູ້ສິ່ງຕ່າງໆໃນຮູບພາບແລະຕອບສະຫນອງຕໍ່ການສອບຖາມກ່ຽວກັບພວກມັນ. ຕົວຢ່າງ, ຕົວແບບສາມາດຮັບຮູ້ Freddie Mercury ໃນຮູບພາບແລະຕອບສະຫນອງຕໍ່ການສອບຖາມກ່ຽວກັບລາວ.

ມັນຍັງສາມາດນັບຈໍານວນບຸກຄົນແລະອະທິບາຍສິ່ງທີ່ເຂົາເຈົ້າກໍາລັງເຮັດຢູ່ໃນຮູບ. ຄວາມສາມາດໃນການກໍານົດວັດຖຸນີ້ມີຄໍາຮ້ອງສະຫມັກໃນຫຼາຍໆດ້ານ, ລວມທັງອີຄອມເມີຊ, ການດູແລສຸຂະພາບ, ແລະຄວາມປອດໄພ.

ຍົກຕົວຢ່າງ

MultiModal-GPT ຍັງສາມາດຮັບຮູ້ຂໍ້ຄວາມພາຍໃນຮູບພາບດິຈິຕອນ. ນີ້ຫມາຍຄວາມວ່າຕົວແບບສາມາດອ່ານຂໍ້ຄວາມໃນຮູບພາບແລະສະກັດຂໍ້ມູນທີ່ເປັນປະໂຫຍດ. ສໍາລັບຕົວຢ່າງ, ມັນອາດຈະກວດພົບຕົວລະຄອນໃນຮູບພາບແລະກໍານົດຜູ້ຂຽນຂອງຫນັງສື.

ມັນເປັນເຄື່ອງມືທີ່ເປັນປະໂຫຍດທີ່ສຸດສໍາລັບ ການຄຸ້ມຄອງເອກະສານ, ການປ້ອນຂໍ້ມູນ, ແລະການວິເຄາະເນື້ອຫາ.

Gandalf

ເຫດຜົນແລະການສ້າງຄວາມຮູ້

Multi-modal-GPT ສາມາດໃຫ້ເຫດຜົນແລະຜະລິດຄວາມຮູ້ກ່ຽວກັບໂລກ. ນີ້ຫມາຍຄວາມວ່າມັນສາມາດໃຫ້ຄໍາອະທິບາຍຢ່າງເຕັມທີ່ກ່ຽວກັບການຖ່າຍຮູບແລະແມ້ກະທັ້ງບອກພວກເຂົາວ່າຮູບພາບໄດ້ຖືກຖ່າຍໃນລະດູການໃດ.

ທັກສະນີ້ແມ່ນເປັນປະໂຫຍດໃນຫຼາຍໆວິຊາ, ລວມທັງການຕິດຕາມສິ່ງແວດລ້ອມ, ກະສິກໍາ, ແລະອຸຕຸນິຍົມ. ຮູບແບບດັ່ງກ່າວຍັງສາມາດສ້າງສິ່ງສ້າງສັນເຊັ່ນ: ບົດກະວີ, ນິທານ, ແລະເພງ, ເຮັດໃຫ້ມັນເປັນເຄື່ອງມືທີ່ດີເລີດສໍາລັບວຽກງານສ້າງສັນ.

ການເຮັດວຽກພາຍໃນຂອງ MultiModal-GPT

ແມ່ແບບສໍາລັບຄໍາແນະນໍາແບບປະສົມປະສານ

ທີມງານນໍາສະເຫນີແມ່ແບບດຽວສໍາລັບການລວມເອົາຂໍ້ມູນພາສາ unimodal ແລະຂໍ້ມູນວິໄສທັດແລະພາສາ multimodal ເພື່ອຝຶກອົບຮົມຕົວແບບ MultiModal-GPT ຢ່າງຖືກຕ້ອງໃນລັກສະນະ synergistic.

ຍຸດທະສາດລວມນີ້ພະຍາຍາມປັບປຸງການປະຕິບັດຂອງຕົວແບບໃນທົ່ວວຽກງານຕ່າງໆໂດຍການຂຸດຄົ້ນຄວາມສາມາດລວມຂອງທັງສອງ modalities ຂໍ້ມູນແລະຊຸກຍູ້ໃຫ້ມີຄວາມເຂົ້າໃຈເລິກເຊິ່ງຂອງແນວຄວາມຄິດພື້ນຖານ.

ຊຸດຂໍ້ມູນ Dolly 15k ແລະ Alpaca GPT4 ຖືກໃຊ້ໂດຍທີມງານເພື່ອວັດແທກຄວາມສາມາດຕາມການສອນແບບພາສາເທົ່ານັ້ນ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ເຮັດໜ້າທີ່ເປັນແມ່ແບບເຕືອນສໍາລັບໂຄງສ້າງການປ້ອນຂໍ້ມູນຊຸດຂໍ້ມູນເພື່ອຮັບປະກັນຮູບແບບການປະຕິບັດຕາມຄໍາແນະນໍາທີ່ສອດຄ່ອງ.

ພາບລວມຊຸດຂໍ້ມູນ Dolly 15k

ຮູບພາບ: ພາບລວມຂອງຊຸດຂໍ້ມູນ Doly 15k

ຕົວແບບເຮັດວຽກແນວໃດ?

ສາມອົງປະກອບຫຼັກປະກອບເປັນຕົວແບບ MultiModal-GPT: ຕົວຖອດລະຫັດພາສາ, ຕົວປ່ຽນການຮັບຮູ້, ແລະຕົວເຂົ້າລະຫັດວິໄສທັດ. ຮູບພາບໄດ້ຖືກຖ່າຍໂດຍຕົວເຂົ້າລະຫັດວິໄສທັດ, ເຊິ່ງຫຼັງຈາກນັ້ນຈະສ້າງການລວບລວມລັກສະນະທີ່ມີລັກສະນະຂອງມັນ.

ຕົວຖອດລະຫັດພາສາໃຊ້ຂໍ້ມູນຈາກຕົວເຂົ້າລະຫັດວິໄສທັດເພື່ອສ້າງຂໍ້ຄວາມທີ່ອະທິບາຍຮູບພາບດ້ວຍການຊ່ວຍເຫຼືອຂອງຕົວສະແດງຕົວປ່ຽນການຮັບຮູ້.

ອົງປະກອບຂອງຕົວແບບທີ່ເຂົ້າໃຈພາສາແລະຜະລິດຂໍ້ຄວາມແມ່ນຕົວຖອດລະຫັດພາສາ. ເພື່ອຄາດເດົາຄໍາຕໍ່ໄປນີ້ໃນປະໂຫຍກຫນຶ່ງ, ຮູບແບບໄດ້ຖືກຝຶກອົບຮົມໂດຍໃຊ້ຂໍ້ມູນການສອນພາສາເທົ່ານັ້ນແລະວິໄສທັດບວກກັບຂໍ້ມູນຕໍ່ໄປນີ້.

ນີ້ສອນແບບຈໍາລອງວິທີການຕອບສະຫນອງຄໍາສັ່ງຈາກມະນຸດແລະສະຫນອງຂໍ້ຄວາມທີ່ຍອມຮັບໄດ້ສໍາລັບຄໍາອະທິບາຍຮູບພາບ.

ຮູບແບບ

ທີມງານຫລັງ

MultiModal-GPT ຖືກສ້າງຂຶ້ນໂດຍທີມງານຂອງ Microsoft Research Asia ນັກຄົ້ນຄວ້າແລະວິສະວະກອນນໍາພາໂດຍ Tao Gong, Chengqi Lyu, ແລະ Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ແລະ Kai Chen ທັງຫມົດໄດ້ປະກອບສ່ວນເຂົ້າໃນການສຶກສາແລະການພັດທະນາຂອງຕົວແບບ.

ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ວິໄສທັດຄອມພິວເຕີ, ແລະການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນທຸກຂົງເຂດຂອງຄວາມສາມາດສໍາລັບທີມງານ. ພວກເຂົາເຈົ້າມີບົດຄວາມຈໍານວນຫນຶ່ງທີ່ຕີພິມຢູ່ໃນກອງປະຊຸມຊັ້ນສູງແລະສິ່ງພິມຕ່າງໆ, ເຊັ່ນດຽວກັນກັບກຽດສັກສີຕ່າງໆແລະຄໍາຊົມເຊີຍສໍາລັບຄວາມພະຍາຍາມທາງວິທະຍາສາດຂອງພວກເຂົາ.

ການຄົ້ນຄວ້າຂອງທີມງານໄດ້ສຸມໃສ່ການພັດທະນາແບບຈໍາລອງແລະວິທີການທີ່ທັນສະ ໄໝ ເພື່ອເຮັດໃຫ້ການໂຕ້ຕອບແບບທໍາມະຊາດແລະສະຫຼາດຫຼາຍຂື້ນລະຫວ່າງມະນຸດແລະເຕັກໂນໂລຢີ.

ການພັດທະນາ Multi-modal-GPT ເປັນຜົນສໍາເລັດທີ່ຫນ້າສັງເກດໃນຂະແຫນງການເນື່ອງຈາກວ່າມັນເປັນຫນຶ່ງໃນຕົວແບບທໍາອິດທີ່ປະສົມປະສານວິໄສທັດແລະພາສາໃນກອບດຽວສໍາລັບການສົນທະນາຫຼາຍຮອບ.

ການປະກອບສ່ວນຂອງທີມງານໃນການຄົ້ນຄວ້າແລະການພັດທະນາ MultiModal-GPT ມີທ່າແຮງທີ່ຈະມີອິດທິພົນຢ່າງຫຼວງຫຼາຍຕໍ່ອະນາຄົດຂອງການປຸງແຕ່ງພາສາທໍາມະຊາດແລະການໂຕ້ຕອບຂອງມະນຸດກັບເຄື່ອງຈັກ.

ວິທີການໃຊ້ MultiModal-GPT

ສໍາລັບຜູ້ເລີ່ມຕົ້ນ, ການນໍາໃຊ້ເຄື່ອງມື MultiModal-GPT ແມ່ນງ່າຍດາຍ. ພຽງແຕ່ໄປ https://mmgpt.openmmlab.org.cn/ ແລະກົດປຸ່ມ "ອັບໂຫຼດຮູບພາບ".

ເລືອກໄຟລ໌ຮູບທີ່ຈະອັບໂຫລດ, ແລະຫຼັງຈາກນັ້ນພິມຂໍ້ຄວາມເຕືອນໃສ່ໃນຊ່ອງຂໍ້ຄວາມ. ເພື່ອສ້າງການຕອບໂຕ້ຈາກຕົວແບບ, ໃຫ້ຄລິກໃສ່ປຸ່ມ "ສົ່ງ", ເຊິ່ງຈະປາກົດຢູ່ດ້ານລຸ່ມຂອງກ່ອງຂໍ້ຄວາມ.

ທ່ານອາດຈະທົດລອງດ້ວຍຮູບພາບ ແລະຄໍາແນະນໍາຕ່າງໆເພື່ອຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບຄວາມສາມາດຂອງຕົວແບບ.

ອິນເຕີເຟດ 1

ການຕິດຕັ້ງ

ເພື່ອຕິດຕັ້ງແພັກເກັດ MultiModal-GPT, ໃຊ້ຄໍາສັ່ງ terminal “git clone https://github.com/open-mmlab/Multimodal-GPT.git” ເພື່ອໂຄນບ່ອນເກັບຂໍ້ມູນຈາກ GitHub. ທ່ານພຽງແຕ່ສາມາດປະຕິບັດຕາມຂັ້ນຕອນເຫຼົ່ານີ້:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

ອີກທາງເລືອກ, ໃຊ້ conda env create -f environment.yml ເພື່ອສ້າງສະພາບແວດລ້ອມ conda ໃຫມ່. ທ່ານອາດຈະດໍາເນີນການສາທິດພາຍໃນທ້ອງຖິ່ນຫຼັງຈາກຕິດຕັ້ງມັນໂດຍການດາວໂຫລດນ້ໍາຫນັກທີ່ຝຶກອົບຮົມກ່ອນແລະເກັບໄວ້ໃນໂຟເດີຈຸດກວດກາ.

ຫຼັງຈາກນັ້ນ, ການສາທິດ Gradio ອາດຈະຖືກເປີດຕົວໂດຍການແລ່ນຄໍາສັ່ງ "python app.py".

ຂໍ້ບົກຜ່ອງທີ່ເປັນໄປໄດ້

ຮູບແບບ MultiModal-GPT ຍັງມີຂໍ້ບົກພ່ອງແລະພື້ນທີ່ສໍາລັບການພັດທະນາເຖິງວ່າຈະມີການປະຕິບັດທີ່ດີເລີດຂອງມັນ.

ຕົວຢ່າງ, ເມື່ອຈັດການກັບການປ້ອນຂໍ້ມູນທາງສາຍຕາທີ່ສັບສົນ ຫຼື ບໍ່ຊັດເຈນ, ຮູບແບບອາດຈະບໍ່ສາມາດຮັບຮູ້ ແລະເຂົ້າໃຈສະພາບການຂອງວັດສະດຸປ້ອນໄດ້ສະເໝີໄປ. ນີ້ອາດຈະເຮັດໃຫ້ການຄາດຄະເນຫຼືປະຕິກິລິຍາທີ່ບໍ່ຖືກຕ້ອງຈາກຕົວແບບ.

ນອກຈາກນັ້ນ, ໂດຍສະເພາະໃນເວລາທີ່ການປ້ອນຂໍ້ມູນແມ່ນສັບສົນຫຼືເປີດ, ຮູບແບບອາດຈະບໍ່ຜະລິດຕິກິຣິຍາທີ່ດີທີ່ສຸດຫຼືຜົນໄດ້ຮັບສະເຫມີ. ສໍາລັບຕົວຢ່າງ, ຄໍາຕອບຂອງຕົວແບບ, ອາດຈະໄດ້ຮັບຜົນກະທົບຈາກການປົກຫຸ້ມຂອງປື້ມທັງສອງຄ້າຍຄືກັນໃນກໍລະນີຂອງການກໍານົດຫນ້າປົກຫນັງສືທີ່ບໍ່ຖືກຕ້ອງ.

ສະຫຼຸບ

ໂດຍລວມແລ້ວ, ຮູບແບບ MultiModal-GPT ສະແດງໃຫ້ເຫັນເຖິງບາດກ້າວອັນໃຫຍ່ຫຼວງໃນການປຸງແຕ່ງພາສາທໍາມະຊາດ ແລະການຮຽນຮູ້ເຄື່ອງຈັກ. ແລະ, ມັນຕື່ນເຕັ້ນຫຼາຍທີ່ຈະໃຊ້ມັນແລະທົດລອງກັບມັນ. ດັ່ງນັ້ນ, ທ່ານຄວນລອງມັນເບິ່ງ!

ຢ່າງໃດກໍຕາມ, ມັນມີຂໍ້ຈໍາກັດ, ເຊັ່ນດຽວກັນກັບທຸກແບບ, ແລະຮຽກຮ້ອງໃຫ້ມີການປັບປຸງເພີ່ມເຕີມແລະການປັບປຸງເພື່ອໃຫ້ໄດ້ປະສິດທິພາບສູງສຸດໃນຫຼາຍໆຄໍາຮ້ອງສະຫມັກແລະໂດເມນ.