ທ່ານເຄີຍປາດຖະຫນາວ່າທ່ານສາມາດສົນທະນາກັບ AI ທີ່ເຂົ້າໃຈຂໍ້ມູນທັງເວົ້າແລະພາບ? ຕົວແບບ MultiModal-GPT ປະສົມປະສານການປະມວນຜົນພາສາກັບຄວາມເຂົ້າໃຈທາງສາຍຕາ.
ມັນສະຫນອງຄວາມເປັນໄປໄດ້ຂອງການພົວພັນລະຫວ່າງມະນຸດກັບຄອມພິວເຕີທີ່ຖືກຕ້ອງແລະມີຄວາມຫຼາກຫຼາຍ. MultiModal-GPT ສາມາດສະຫນອງຄໍາບັນຍາຍອະທິບາຍ, ນັບລາຍການແຕ່ລະຄົນ, ແລະຕອບສະຫນອງຕໍ່ຄໍາຖາມຂອງຜູ້ໃຊ້ທົ່ວໄປ.
ແຕ່, ມັນເຮັດແນວນັ້ນໄດ້ແນວໃດ? ແລະ, ເຈົ້າສາມາດເຮັດຫຍັງໄດ້ກັບ MultiModal-GPT?
ໃຫ້ພວກເຮົາເອົາເລື່ອງລາວໄປສູ່ຈຸດເລີ່ມຕົ້ນແລະເຂົ້າໃຈຄວາມເປັນໄປໄດ້ທີ່ຢູ່ຂ້າງຫນ້າຂອງພວກເຮົາ.
ດ້ວຍການປະກົດຕົວຂອງຮູບແບບພາສາເຊັ່ນ GPT-4, ເຕັກໂນໂລຢີການປຸງແຕ່ງພາສາທໍາມະຊາດກໍາລັງເປັນພະຍານເຖິງການປະຕິວັດ. ນະວັດຕະກໍາເຊັ່ນ ChatGPT ໄດ້ຖືກລວມເຂົ້າໃນຊີວິດຂອງພວກເຮົາແລ້ວ.
ແລະ, ພວກເຂົາເຈົ້າເບິ່ງຄືວ່າຈະສືບຕໍ່ມາ!
GPT-4 ແລະຂໍ້ຈໍາກັດຂອງມັນ
GPT-4 ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ຫນ້າອັດສະຈັນໃນການສົນທະນາ multimodal ກັບປະຊາຊົນ. ການສຶກສາໄດ້ພະຍາຍາມເຮັດຊ້ໍາການປະຕິບັດນີ້, ແຕ່ເນື່ອງຈາກຈໍານວນ tokens ຮູບພາບທີ່ມີທ່າແຮງສູງ, ລວມທັງຕົວແບບທີ່ມີຂໍ້ມູນສາຍຕາທີ່ຊັດເຈນສາມາດມີລາຄາແພງໃນຄອມພິວເຕີ້.
ຮູບແບບທີ່ມີຢູ່ແລ້ວຍັງບໍ່ລວມເອົາການປັບແຕ່ງການສອນພາສາໃນການສຶກສາຂອງເຂົາເຈົ້າ, ເຊິ່ງຈໍາກັດຄວາມສາມາດຂອງເຂົາເຈົ້າໃນການເຂົ້າຮ່ວມໃນການສົນທະນາຮູບພາບ-ຂໍ້ຄວາມ multiturn zero-shot.
ການສ້າງຂອບ Flamingo
ຮູບແບບໃຫມ່ທີ່ເອີ້ນວ່າ MultiModal-GPT ໄດ້ຖືກພັດທະນາເພື່ອໃຫ້ສາມາດສື່ສານກັບຄົນໂດຍໃຊ້ພາສາແລະສາຍຕາ.
ນັກພັດທະນາໄດ້ໃຊ້ໂຄງການທີ່ເອີ້ນວ່າ ໂຄງຮ່າງການ Flamingo, ເຊິ່ງໃນເມື່ອກ່ອນໄດ້ຖືກຝຶກອົບຮົມເພື່ອເຂົ້າໃຈທັງຂໍ້ຄວາມ ແລະພາບ, ເພື່ອເຮັດໃຫ້ນີ້ເປັນໄປໄດ້.
Flamingo ຕ້ອງການການປ່ຽນແປງບາງຢ່າງ, ເຖິງແມ່ນວ່າ, ຍ້ອນວ່າມັນບໍ່ສາມາດມີການສົນທະນາຂະຫຍາຍທີ່ປະກອບມີຂໍ້ຄວາມແລະຮູບພາບ.
ແບບຈໍາລອງ MultiModal-GPT ທີ່ຖືກປັບປຸງສາມາດລວບລວມຂໍ້ມູນຈາກຮູບພາບແລະປະສົມກັບພາສາເພື່ອເຂົ້າໃຈແລະປະຕິບັດຄໍາສັ່ງຂອງມະນຸດ.
MultiModal-GPT
MultiModal-GPT ແມ່ນປະເພດຂອງຕົວແບບ AI ທີ່ສາມາດປະຕິບັດຕາມການສອບຖາມຂອງມະນຸດຕ່າງໆເຊັ່ນການອະທິບາຍພາບ, ການນັບລາຍການແລະການຕອບຄໍາຖາມ. ມັນເຂົ້າໃຈແລະປະຕິບັດຕາມຄໍາສັ່ງໂດຍໃຊ້ການປະສົມປະສານຂອງຂໍ້ມູນຕາແລະຄໍາເວົ້າ.
ນັກຄົ້ນຄວ້າໄດ້ຝຶກອົບຮົມແບບຈໍາລອງດັ່ງກ່າວໂດຍນໍາໃຊ້ຂໍ້ມູນທັງສາຍຕາແລະພາສາເທົ່ານັ້ນເພື່ອເພີ່ມຄວາມສາມາດຂອງ MultiModal-GPT ເພື່ອສົນທະນາກັບຄົນ. ນອກຈາກນັ້ນ, ມັນໄດ້ເຮັດໃຫ້ມີການປັບປຸງຢ່າງເຫັນໄດ້ຊັດໃນວິທີການປະຕິບັດການສົນທະນາຂອງຕົນ. ມັນຍັງສົ່ງຜົນໃຫ້ມີການປັບປຸງປະສິດທິພາບການສົນທະນາຂອງຕົນ.
ພວກເຂົາເຈົ້າຄົ້ນພົບວ່າການມີຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີຄຸນນະພາບສູງແມ່ນສໍາຄັນຕໍ່ການປະຕິບັດການສົນທະນາທີ່ດີ, ເພາະວ່າຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍທີ່ມີການຕອບໂຕ້ສັ້ນອາດຈະເຮັດໃຫ້ຕົວແບບສາມາດສ້າງຄໍາຕອບທີ່ສັ້ນກວ່າຕໍ່ຄໍາສັ່ງໃດໆ.
ເຈົ້າສາມາດເຮັດຫຍັງໄດ້ກັບ MultiModal-GPT?
ການມີສ່ວນຮ່ວມໃນການສົນທະນາ
ເຊັ່ນດຽວກັນກັບຕົວແບບພາສາທີ່ມາກ່ອນ, ຫນຶ່ງໃນລັກສະນະຕົ້ນຕໍຂອງ MultiModal-GPT ແມ່ນຄວາມສາມາດໃນການເຂົ້າຮ່ວມການສົນທະນາພາສາທໍາມະຊາດ. ນີ້ ໝາຍ ຄວາມວ່າຜູ້ບໍລິໂພກອາດຈະມີສ່ວນຮ່ວມກັບຕົວແບບຄືກັນກັບພວກເຂົາກັບຄົນທີ່ແທ້ຈິງ.
ຕົວຢ່າງ, MultiModal-GPT ສາມາດໃຫ້ລູກຄ້າມີສູດລາຍລະອຽດສໍາລັບການເຮັດ noodles ຫຼືແນະນໍາຮ້ານອາຫານທີ່ເປັນໄປໄດ້ສໍາລັບການກິນເຂົ້ານອກ. ຮູບແບບດັ່ງກ່າວຍັງສາມາດຕອບຄໍາຖາມທົ່ວໄປກ່ຽວກັບຄວາມຕັ້ງໃຈການເດີນທາງຂອງຜູ້ໃຊ້.
ການຮັບຮູ້ວັດຖຸ
MultiModal-GPT ສາມາດຮັບຮູ້ສິ່ງຕ່າງໆໃນຮູບພາບແລະຕອບສະຫນອງຕໍ່ການສອບຖາມກ່ຽວກັບພວກມັນ. ຕົວຢ່າງ, ຕົວແບບສາມາດຮັບຮູ້ Freddie Mercury ໃນຮູບພາບແລະຕອບສະຫນອງຕໍ່ການສອບຖາມກ່ຽວກັບລາວ.
ມັນຍັງສາມາດນັບຈໍານວນບຸກຄົນແລະອະທິບາຍສິ່ງທີ່ເຂົາເຈົ້າກໍາລັງເຮັດຢູ່ໃນຮູບ. ຄວາມສາມາດໃນການກໍານົດວັດຖຸນີ້ມີຄໍາຮ້ອງສະຫມັກໃນຫຼາຍໆດ້ານ, ລວມທັງອີຄອມເມີຊ, ການດູແລສຸຂະພາບ, ແລະຄວາມປອດໄພ.
MultiModal-GPT ຍັງສາມາດຮັບຮູ້ຂໍ້ຄວາມພາຍໃນຮູບພາບດິຈິຕອນ. ນີ້ຫມາຍຄວາມວ່າຕົວແບບສາມາດອ່ານຂໍ້ຄວາມໃນຮູບພາບແລະສະກັດຂໍ້ມູນທີ່ເປັນປະໂຫຍດ. ສໍາລັບຕົວຢ່າງ, ມັນອາດຈະກວດພົບຕົວລະຄອນໃນຮູບພາບແລະກໍານົດຜູ້ຂຽນຂອງຫນັງສື.
ມັນເປັນເຄື່ອງມືທີ່ເປັນປະໂຫຍດທີ່ສຸດສໍາລັບ ການຄຸ້ມຄອງເອກະສານ, ການປ້ອນຂໍ້ມູນ, ແລະການວິເຄາະເນື້ອຫາ.
ເຫດຜົນແລະການສ້າງຄວາມຮູ້
Multi-modal-GPT ສາມາດໃຫ້ເຫດຜົນແລະຜະລິດຄວາມຮູ້ກ່ຽວກັບໂລກ. ນີ້ຫມາຍຄວາມວ່າມັນສາມາດໃຫ້ຄໍາອະທິບາຍຢ່າງເຕັມທີ່ກ່ຽວກັບການຖ່າຍຮູບແລະແມ້ກະທັ້ງບອກພວກເຂົາວ່າຮູບພາບໄດ້ຖືກຖ່າຍໃນລະດູການໃດ.
ທັກສະນີ້ແມ່ນເປັນປະໂຫຍດໃນຫຼາຍໆວິຊາ, ລວມທັງການຕິດຕາມສິ່ງແວດລ້ອມ, ກະສິກໍາ, ແລະອຸຕຸນິຍົມ. ຮູບແບບດັ່ງກ່າວຍັງສາມາດສ້າງສິ່ງສ້າງສັນເຊັ່ນ: ບົດກະວີ, ນິທານ, ແລະເພງ, ເຮັດໃຫ້ມັນເປັນເຄື່ອງມືທີ່ດີເລີດສໍາລັບວຽກງານສ້າງສັນ.
ການເຮັດວຽກພາຍໃນຂອງ MultiModal-GPT
ແມ່ແບບສໍາລັບຄໍາແນະນໍາແບບປະສົມປະສານ
ທີມງານນໍາສະເຫນີແມ່ແບບດຽວສໍາລັບການລວມເອົາຂໍ້ມູນພາສາ unimodal ແລະຂໍ້ມູນວິໄສທັດແລະພາສາ multimodal ເພື່ອຝຶກອົບຮົມຕົວແບບ MultiModal-GPT ຢ່າງຖືກຕ້ອງໃນລັກສະນະ synergistic.
ຍຸດທະສາດລວມນີ້ພະຍາຍາມປັບປຸງການປະຕິບັດຂອງຕົວແບບໃນທົ່ວວຽກງານຕ່າງໆໂດຍການຂຸດຄົ້ນຄວາມສາມາດລວມຂອງທັງສອງ modalities ຂໍ້ມູນແລະຊຸກຍູ້ໃຫ້ມີຄວາມເຂົ້າໃຈເລິກເຊິ່ງຂອງແນວຄວາມຄິດພື້ນຖານ.
ຊຸດຂໍ້ມູນ Dolly 15k ແລະ Alpaca GPT4 ຖືກໃຊ້ໂດຍທີມງານເພື່ອວັດແທກຄວາມສາມາດຕາມການສອນແບບພາສາເທົ່ານັ້ນ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ເຮັດໜ້າທີ່ເປັນແມ່ແບບເຕືອນສໍາລັບໂຄງສ້າງການປ້ອນຂໍ້ມູນຊຸດຂໍ້ມູນເພື່ອຮັບປະກັນຮູບແບບການປະຕິບັດຕາມຄໍາແນະນໍາທີ່ສອດຄ່ອງ.
ຮູບພາບ: ພາບລວມຂອງຊຸດຂໍ້ມູນ Doly 15k
ຕົວແບບເຮັດວຽກແນວໃດ?
ສາມອົງປະກອບຫຼັກປະກອບເປັນຕົວແບບ MultiModal-GPT: ຕົວຖອດລະຫັດພາສາ, ຕົວປ່ຽນການຮັບຮູ້, ແລະຕົວເຂົ້າລະຫັດວິໄສທັດ. ຮູບພາບໄດ້ຖືກຖ່າຍໂດຍຕົວເຂົ້າລະຫັດວິໄສທັດ, ເຊິ່ງຫຼັງຈາກນັ້ນຈະສ້າງການລວບລວມລັກສະນະທີ່ມີລັກສະນະຂອງມັນ.
ຕົວຖອດລະຫັດພາສາໃຊ້ຂໍ້ມູນຈາກຕົວເຂົ້າລະຫັດວິໄສທັດເພື່ອສ້າງຂໍ້ຄວາມທີ່ອະທິບາຍຮູບພາບດ້ວຍການຊ່ວຍເຫຼືອຂອງຕົວສະແດງຕົວປ່ຽນການຮັບຮູ້.
ອົງປະກອບຂອງຕົວແບບທີ່ເຂົ້າໃຈພາສາແລະຜະລິດຂໍ້ຄວາມແມ່ນຕົວຖອດລະຫັດພາສາ. ເພື່ອຄາດເດົາຄໍາຕໍ່ໄປນີ້ໃນປະໂຫຍກຫນຶ່ງ, ຮູບແບບໄດ້ຖືກຝຶກອົບຮົມໂດຍໃຊ້ຂໍ້ມູນການສອນພາສາເທົ່ານັ້ນແລະວິໄສທັດບວກກັບຂໍ້ມູນຕໍ່ໄປນີ້.
ນີ້ສອນແບບຈໍາລອງວິທີການຕອບສະຫນອງຄໍາສັ່ງຈາກມະນຸດແລະສະຫນອງຂໍ້ຄວາມທີ່ຍອມຮັບໄດ້ສໍາລັບຄໍາອະທິບາຍຮູບພາບ.
ທີມງານຫລັງ
MultiModal-GPT ຖືກສ້າງຂຶ້ນໂດຍທີມງານຂອງ Microsoft Research Asia ນັກຄົ້ນຄວ້າແລະວິສະວະກອນນໍາພາໂດຍ Tao Gong, Chengqi Lyu, ແລະ Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ແລະ Kai Chen ທັງຫມົດໄດ້ປະກອບສ່ວນເຂົ້າໃນການສຶກສາແລະການພັດທະນາຂອງຕົວແບບ.
ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ວິໄສທັດຄອມພິວເຕີ, ແລະການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນທຸກຂົງເຂດຂອງຄວາມສາມາດສໍາລັບທີມງານ. ພວກເຂົາເຈົ້າມີບົດຄວາມຈໍານວນຫນຶ່ງທີ່ຕີພິມຢູ່ໃນກອງປະຊຸມຊັ້ນສູງແລະສິ່ງພິມຕ່າງໆ, ເຊັ່ນດຽວກັນກັບກຽດສັກສີຕ່າງໆແລະຄໍາຊົມເຊີຍສໍາລັບຄວາມພະຍາຍາມທາງວິທະຍາສາດຂອງພວກເຂົາ.
ການຄົ້ນຄວ້າຂອງທີມງານໄດ້ສຸມໃສ່ການພັດທະນາແບບຈໍາລອງແລະວິທີການທີ່ທັນສະ ໄໝ ເພື່ອເຮັດໃຫ້ການໂຕ້ຕອບແບບທໍາມະຊາດແລະສະຫຼາດຫຼາຍຂື້ນລະຫວ່າງມະນຸດແລະເຕັກໂນໂລຢີ.
ການພັດທະນາ Multi-modal-GPT ເປັນຜົນສໍາເລັດທີ່ຫນ້າສັງເກດໃນຂະແຫນງການເນື່ອງຈາກວ່າມັນເປັນຫນຶ່ງໃນຕົວແບບທໍາອິດທີ່ປະສົມປະສານວິໄສທັດແລະພາສາໃນກອບດຽວສໍາລັບການສົນທະນາຫຼາຍຮອບ.
ການປະກອບສ່ວນຂອງທີມງານໃນການຄົ້ນຄວ້າແລະການພັດທະນາ MultiModal-GPT ມີທ່າແຮງທີ່ຈະມີອິດທິພົນຢ່າງຫຼວງຫຼາຍຕໍ່ອະນາຄົດຂອງການປຸງແຕ່ງພາສາທໍາມະຊາດແລະການໂຕ້ຕອບຂອງມະນຸດກັບເຄື່ອງຈັກ.
ວິທີການໃຊ້ MultiModal-GPT
ສໍາລັບຜູ້ເລີ່ມຕົ້ນ, ການນໍາໃຊ້ເຄື່ອງມື MultiModal-GPT ແມ່ນງ່າຍດາຍ. ພຽງແຕ່ໄປ https://mmgpt.openmmlab.org.cn/ ແລະກົດປຸ່ມ "ອັບໂຫຼດຮູບພາບ".
ເລືອກໄຟລ໌ຮູບທີ່ຈະອັບໂຫລດ, ແລະຫຼັງຈາກນັ້ນພິມຂໍ້ຄວາມເຕືອນໃສ່ໃນຊ່ອງຂໍ້ຄວາມ. ເພື່ອສ້າງການຕອບໂຕ້ຈາກຕົວແບບ, ໃຫ້ຄລິກໃສ່ປຸ່ມ "ສົ່ງ", ເຊິ່ງຈະປາກົດຢູ່ດ້ານລຸ່ມຂອງກ່ອງຂໍ້ຄວາມ.
ທ່ານອາດຈະທົດລອງດ້ວຍຮູບພາບ ແລະຄໍາແນະນໍາຕ່າງໆເພື່ອຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບຄວາມສາມາດຂອງຕົວແບບ.
ການຕິດຕັ້ງ
ເພື່ອຕິດຕັ້ງແພັກເກັດ MultiModal-GPT, ໃຊ້ຄໍາສັ່ງ terminal “git clone https://github.com/open-mmlab/Multimodal-GPT.git” ເພື່ອໂຄນບ່ອນເກັບຂໍ້ມູນຈາກ GitHub. ທ່ານພຽງແຕ່ສາມາດປະຕິບັດຕາມຂັ້ນຕອນເຫຼົ່ານີ້:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
ອີກທາງເລືອກ, ໃຊ້ conda env create -f environment.yml
ເພື່ອສ້າງສະພາບແວດລ້ອມ conda ໃຫມ່. ທ່ານອາດຈະດໍາເນີນການສາທິດພາຍໃນທ້ອງຖິ່ນຫຼັງຈາກຕິດຕັ້ງມັນໂດຍການດາວໂຫລດນ້ໍາຫນັກທີ່ຝຶກອົບຮົມກ່ອນແລະເກັບໄວ້ໃນໂຟເດີຈຸດກວດກາ.
ຫຼັງຈາກນັ້ນ, ການສາທິດ Gradio ອາດຈະຖືກເປີດຕົວໂດຍການແລ່ນຄໍາສັ່ງ "python app.py".
ຂໍ້ບົກຜ່ອງທີ່ເປັນໄປໄດ້
ຮູບແບບ MultiModal-GPT ຍັງມີຂໍ້ບົກພ່ອງແລະພື້ນທີ່ສໍາລັບການພັດທະນາເຖິງວ່າຈະມີການປະຕິບັດທີ່ດີເລີດຂອງມັນ.
ຕົວຢ່າງ, ເມື່ອຈັດການກັບການປ້ອນຂໍ້ມູນທາງສາຍຕາທີ່ສັບສົນ ຫຼື ບໍ່ຊັດເຈນ, ຮູບແບບອາດຈະບໍ່ສາມາດຮັບຮູ້ ແລະເຂົ້າໃຈສະພາບການຂອງວັດສະດຸປ້ອນໄດ້ສະເໝີໄປ. ນີ້ອາດຈະເຮັດໃຫ້ການຄາດຄະເນຫຼືປະຕິກິລິຍາທີ່ບໍ່ຖືກຕ້ອງຈາກຕົວແບບ.
ນອກຈາກນັ້ນ, ໂດຍສະເພາະໃນເວລາທີ່ການປ້ອນຂໍ້ມູນແມ່ນສັບສົນຫຼືເປີດ, ຮູບແບບອາດຈະບໍ່ຜະລິດຕິກິຣິຍາທີ່ດີທີ່ສຸດຫຼືຜົນໄດ້ຮັບສະເຫມີ. ສໍາລັບຕົວຢ່າງ, ຄໍາຕອບຂອງຕົວແບບ, ອາດຈະໄດ້ຮັບຜົນກະທົບຈາກການປົກຫຸ້ມຂອງປື້ມທັງສອງຄ້າຍຄືກັນໃນກໍລະນີຂອງການກໍານົດຫນ້າປົກຫນັງສືທີ່ບໍ່ຖືກຕ້ອງ.
ສະຫຼຸບ
ໂດຍລວມແລ້ວ, ຮູບແບບ MultiModal-GPT ສະແດງໃຫ້ເຫັນເຖິງບາດກ້າວອັນໃຫຍ່ຫຼວງໃນການປຸງແຕ່ງພາສາທໍາມະຊາດ ແລະການຮຽນຮູ້ເຄື່ອງຈັກ. ແລະ, ມັນຕື່ນເຕັ້ນຫຼາຍທີ່ຈະໃຊ້ມັນແລະທົດລອງກັບມັນ. ດັ່ງນັ້ນ, ທ່ານຄວນລອງມັນເບິ່ງ!
ຢ່າງໃດກໍຕາມ, ມັນມີຂໍ້ຈໍາກັດ, ເຊັ່ນດຽວກັນກັບທຸກແບບ, ແລະຮຽກຮ້ອງໃຫ້ມີການປັບປຸງເພີ່ມເຕີມແລະການປັບປຸງເພື່ອໃຫ້ໄດ້ປະສິດທິພາບສູງສຸດໃນຫຼາຍໆຄໍາຮ້ອງສະຫມັກແລະໂດເມນ.
ອອກຈາກ Reply ເປັນ