Ua makemake paha ʻoe e kamaʻilio me kahi AI e hoʻomaopopo i ka ʻike ʻōlelo a me ka ʻike ʻike? Hoʻohui ka MultiModal-GPT paradigm i ka hana ʻōlelo me ka ʻike ʻike.
Hāʻawi ia i ka hiki ke kūpono a me ka ʻokoʻa o ka pilina kanaka-kamepiula. MultiModal-GPT hiki ke hāʻawi i nā captions wehewehe, helu i kēlā me kēia mea, a pane i nā nīnau mea hoʻohana maʻamau.
Akā, pehea ia e hana ai? A, he aha kāu e hana ai me MultiModal-GPT?
E lawe kākou i ka moʻolelo i ka hoʻomaka a e hoʻomaopopo i nā mea hiki i mua o kākou.
Me ka puka ʻana mai o nā ʻōlelo hoʻohālike e like me GPT-4, ke ʻike nei nā ʻenehana hana ʻōlelo kūlohelohe i kahi kipi. Ua hoʻokomo ʻia nā mea hou e like me ChatGPT i loko o ko mākou ola.
A, me he mea lā e hele mau ana lākou!
GPT-4 a me kona mau palena
Ua hōʻike ʻo GPT-4 i ka mākaukau kupaianaha i nā kamaʻilio multimodal me nā kānaka. Ua hoʻāʻo nā haʻawina e hana hou i kēia hana, akā ma muli o ka nui o ka nui o nā hōʻailona kiʻi, me nā hiʻohiʻona me ka ʻike ʻike kikoʻī hiki ke uku nui ʻia.
ʻAʻole hoʻokomo ʻia nā kumu hoʻohālike e kū nei i ka hoʻopaʻa ʻana i ka ʻōlelo i kā lākou haʻawina, kahi e kaupalena ʻia ai ko lākou hiki ke komo i nā kamaʻilio kiʻi-kiʻi kiʻi multiturn zero-shot.
Kūkulu ʻia ma luna o ka Flamingo Framework
Ua hoʻomohala ʻia kahi hiʻohiʻona hou i kapa ʻia ʻo MultiModal-GPT e hiki ai ke kamaʻilio me nā poʻe e hoʻohana ana i nā ʻōlelo aʻoaʻo a me ka ʻike.
Ua hoʻohana nā mea hoʻomohala i kahi papahana i kapa ʻia ʻo ka ʻO ka hana Flamingo, i hoʻomaʻamaʻa mua ʻia e hoʻomaopopo i nā kikokikona a me nā kiʻi, i mea e hiki ai.
Pono ʻo Flamingo i kekahi mau loli, ʻoiai ʻaʻole hiki iā ia ke hoʻonui i nā kamaʻilio e pili ana i nā kikokikona a me nā kiʻi.
Hiki i ke kŘkohu MultiModal-GPT hou ke hōʻiliʻili i ka ʻikepili mai nā kiʻi a hui pū me ka ʻōlelo e hoʻomaopopo a hoʻokō i nā kauoha kanaka.
MultiModal-GPT
ʻO MultiModal-GPT kahi ʻano hoʻohālike AI e hiki ke hahai i nā nīnau kanaka like ʻole e like me ka wehewehe ʻana i nā kiʻi, helu helu, a me ka pane ʻana i nā nīnau. Hoʻomaopopo a hahai i nā kauoha me ka hoʻohana ʻana i ka hui ʻana o ka ʻikepili ʻike a me ka waha.
Ua hoʻomaʻamaʻa nā mea noiʻi i ke kŘkohu me ka hoʻohana ʻana i ka ʻikepili ʻike a me ka ʻōlelo wale nō e hoʻonui ai i ka mana o MultiModal-GPT e kamaʻilio me nā kānaka. Eia hou, ua hoʻoikaika maikaʻi ʻia ke ʻano o kāna haʻiʻōlelo. Ua loaʻa pū kekahi i ka hoʻomaikaʻi ʻana i kāna hana kamaʻilio.
Ua ʻike lākou he mea koʻikoʻi ka loaʻa ʻana o ka ʻikepili hoʻomaʻamaʻa kiʻekiʻe no ka hana kamaʻilio maikaʻi ʻana, no ka mea, hiki i kahi ʻikepili liʻiliʻi me nā pane pōkole ke hiki i ke kumu hoʻohālike ke hana i nā pane pōkole i kekahi kauoha.
He aha kāu e hana ai me MultiModal-GPT?
Ke komo ʻana i nā kamaʻilio
E like me nā hiʻohiʻona ʻōlelo i hele mai ma mua, ʻo kekahi o nā hiʻohiʻona nui o MultiModal-GPT ʻo kona hiki ke komo i nā kūkākūkā ʻōlelo kūlohelohe. Hōʻike kēia i hiki i nā mea kūʻai ke hoʻopili i ke kumu hoʻohālike e like me kā lākou hana me ke kanaka maoli.
No ka laʻana, hiki i ka MultiModal-GPT ke hāʻawi i nā mea kūʻai aku i kahi meaʻai kikoʻī no ka hana ʻana i nā noodles a i ʻole ke kuhikuhi ʻana i nā hale ʻaina hiki ke ʻai i waho. Hiki i ke kumu hoʻohālike ke pane i nā nīnau maʻamau e pili ana i ka manaʻo huakaʻi o nā mea hoʻohana.
ʻIke i nā mea
Hiki i MultiModal-GPT ke hoʻomaopopo i nā mea ma nā kiʻi a pane i nā nīnau e pili ana iā lākou. No ka laʻana, hiki i ke kumu hoʻohālike ke ʻike iā Freddie Mercury i kahi kiʻi a pane i nā nīnau e pili ana iā ia.
Hiki iā ia ke helu i ka helu o nā kānaka a wehewehe i kā lākou hana ma ke kiʻi. Loaʻa kēia mana ʻike mea i nā noi ma nā ʻano ʻano like ʻole, me ka e-commerce, mālama olakino, a me ka palekana.
Hiki i MultiModal-GPT ke ʻike i ka kikokikona i loko o nā kiʻi kikohoʻe. Hōʻike kēia i hiki i ke kŘkohu ke heluhelu i ke kikokikona ma nā kiʻi a unuhi i ka ʻikepili pono. Hiki iā ia, no ka laʻana, ke ʻike i nā huaʻōlelo i loko o kahi kiʻi a ʻike i ka mea kākau o kahi puke.
He mea hana pono loa ia no hoʻokele palapala, hoʻokomo ʻikepili, a me ka nānā ʻana maʻiʻo.
Noʻonoʻo a me ka hoʻokumu ʻana o ka ʻike
Hiki i ka Multi-modal-GPT ke noʻonoʻo a hana i ka ʻike e pili ana i ka honua. 'O ia ho'i, hiki iā ia ke hā'awi i nā wehewehe piha o nā ki'i a ha'i aku iā lākou i ke kau i lawe 'ia ai ke ki'i.
Pono kēia akamai i nā ʻano aʻo like ʻole, me ka nānā ʻana i ke kaiapuni, ka mahiʻai, a me ka meteorology. Hiki i ke kŘkohu ke hana i nā mea noʻeau e like me nā mele, nā moʻolelo, a me nā mele, e lilo ia i mea hana maikaʻi loa no nā hana hana.
Nā hana o loko o MultiModal-GPT
Papahana no ka Unified Instructions
Hāʻawi ka hui i hoʻokahi laʻana no ka hoʻohui ʻana i ka ʻikepili linguistic unimodal a me ka ʻike multimodal vision-and-language e hoʻomaʻamaʻa pono i ke ʻano MultiModal-GPT ma kahi ʻano synergistic.
Ke ho'āʻo nei kēia hoʻolālā hui e hoʻomaikaʻi i ka hana o ke kŘkohu ma nā ʻano hana like ʻole ma o ka hoʻohana ʻana i nā mana hoʻohui o nā ʻano ʻikepili ʻelua a me ka paipai ʻana i ka hoʻomaopopo hohonu ʻana i nā manaʻo kumu.
Hoʻohana ʻia ka ʻikepili Dolly 15k a me Alpaca GPT4 e ka hui e ana i nā hiki ke aʻo ʻana i ka ʻōlelo wale nō. Hana ʻia kēia mau ʻikepili ma ke ʻano he laʻana wikiwiki no ka hoʻonohonoho ʻana i ka hoʻokomo ʻikepili e hōʻoiaʻiʻo i kahi ʻano aʻo like ʻole.
Kiʻi: ʻO ka ʻike nui o Doly 15k dataset
Pehea ka hana ʻana o ke kumu hoʻohālike?
ʻEkolu mau mea koʻikoʻi e hana i ke ʻano MultiModal-GPT: he decoder ʻōlelo, he perceiver resampler, a he vision encoder. Lawe ʻia ke kiʻi e ka vision encoder, a laila hoʻopuka i kahi hōʻiliʻili o nā hiʻohiʻona e ʻike ai.
Hoʻohana ka decoder ʻōlelo i ka ʻike mai ka vision encoder e hana i nā kikokikona e wehewehe ana i ke kiʻi me ke kōkua o ka mea ʻike resampler.
ʻO ka ʻāpana o ke kŘkohu e hoʻomaopopo i ka ʻōlelo a hoʻopuka i ka kikokikona ʻo ia ka decoder ʻōlelo. No ka wānana ʻana i kēia huaʻōlelo i loko o kahi māmalaʻōlelo, ua aʻo ʻia ke kŘkohu me ka hoʻohana ʻana i ka ʻikepili aʻo ʻōlelo wale nō a me ka ʻike a me ka ʻike.
Aʻo kēia i ke kumu hoʻohālike pehea e pane ai i nā kauoha mai ke kanaka a hāʻawi i ka kikokikona kūpono no nā wehewehe kiʻi.
Hui Mahope
Ua hana ʻia ka MultiModal-GPT e kahi hui o nā mea noiʻi a me nā ʻenekinia Microsoft Research Asia i alakaʻi ʻia e Tao Gong, Chengqi Lyu, a me Shilong Zhang. Ua kōkua ʻo Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, a me Kai Chen i ke aʻo ʻana a me ka hoʻomohala ʻana o ke kumu hoʻohālike.
Ka hana ʻōlelo kūlohelohe, ʻikeʻikepili, a ʻo ke aʻo ʻana i ka mīkini nā wahi āpau o ka mākaukau no ka hui. He mau ʻatikala kā lākou i paʻi ʻia ma nā ʻaha kūkā a me nā paʻi kiʻekiʻe, a me nā hanohano a me nā hoʻomaikaʻi like ʻole no kā lākou hana ʻepekema.
Ke nānā nei ka noiʻi o ka hui i ka hoʻomohala ʻana i nā hiʻohiʻona ʻokiʻoki a me nā ala e hiki ai i nā pilina kūlohelohe a me ka naʻauao ma waena o ke kanaka a me ka ʻenehana.
ʻO ka hoʻomohala ʻana i ka multi-modal-GPT he hana koʻikoʻi ia ma ke kula ʻoiai ʻo ia kekahi o nā kumu hoʻohālike mua e hoʻohui i ka ʻike a me ka ʻōlelo i loko o kahi hoʻolālā no ke kūkākūkā lehulehu.
ʻO nā haʻawina a ka hui i ka noiʻi a me ka hoʻomohala ʻana o MultiModal-GPT hiki ke loaʻa ka mana nui i ka wā e hiki mai ana o ka hoʻoponopono ʻōlelo kūlohelohe a me nā pilina kanaka-mīkini.
Pehea e hoʻohana ai i ka MultiModal-GPT
No ka poʻe hoʻomaka, maʻalahi ka hoʻohana ʻana i ka hāmeʻa MultiModal-GPT. E hele wale i https://mmgpt.openmmlab.org.cn/ a kaomi i ke pihi "Upload Image".
E koho i ka waihona kiʻi e hoʻouka ai, a laila e paʻi i ka ʻōkuhi kikokikona i loko o ke kahua kikokikona. No ka hana ʻana i kahi pane mai ke kumu hoʻohālike, kaomi i ke pihi "Submit", e ʻike ʻia ma lalo o ke kahua kikokikona.
Hiki iā ʻoe ke hoʻāʻo me nā kiʻi like ʻole a me nā ʻōlelo aʻo e aʻo hou e pili ana i ka hiki o ke kumu hoʻohālike.
Ke hoʻouka nei
No ka hoʻokomo ʻana i ka pūʻulu MultiModal-GPT, e hoʻohana i ke kauoha ʻo "git clone https://github.com/open-mmlab/Multimodal-GPT.git" e hoʻopili i ka waihona mai GitHub. Hiki iā ʻoe ke hahai i kēia mau ʻanuʻu:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
ʻO kahi koho, hoʻohana conda env create -f environment.yml
e hoʻokumu i kahi kaiapuni conda hou. Hiki iā ʻoe ke holo i ka demo ma ka ʻāina ma hope o ka hoʻokomo ʻana iā ia ma ka hoʻoiho ʻana i nā paona i hoʻomaʻamaʻa mua ʻia a mālama iā lākou i loko o ka waihona checkpoints.
Hiki ke hoʻokuʻu ʻia ka Gradio demo ma ka holo ʻana i ke kauoha "python app.py".
Hiki i nā hemahema
Loaʻa nā hemahema a me ka lumi no ka hoʻomohala ʻana o ke ʻano MultiModal-GPT me kāna hana maikaʻi loa.
No ka laʻana, i ka wā e pili ana i nā mea hoʻokomo hiʻohiʻona paʻakikī a i ʻole nā mea hoʻokomo ʻike maka, ʻaʻole hiki i ke kumu hoʻohālike ke ʻike a hoʻomaopopo i ka pōʻaiapili o ka hoʻokomo. Hiki paha kēia i nā wānana pololei ʻole a i ʻole nā pane mai ke kumu hoʻohālike.
Eia hou, ʻoiai inā paʻakikī a wehe ʻole paha ka hoʻokomo ʻana, ʻaʻole hiki i ke kumu hoʻohālike ke hana i ka hopena maikaʻi loa. ʻO ka pane o ke kumu hoʻohālike, no ka laʻana, ua pili paha i ke ʻano like o nā uhi puke ʻelua i ka hihia o ka ʻike hewa ʻana o kahi uhi puke.
Panina
Ma ke ʻano holoʻokoʻa, hōʻike ke ʻano MultiModal-GPT i kahi pae nui i mua i ka hana ʻōlelo kūlohelohe a me ke aʻo ʻana i ka mīkini. A, hauʻoli loa ka hoʻohana ʻana a hoʻokolohua me ia. No laila, pono ʻoe e hoʻāʻo!
Eia nō naʻe, loaʻa nā palena, e like me nā hiʻohiʻona a pau, a koi i ka hoʻomaʻemaʻe hou a me ka hoʻonui ʻana e loaʻa ai ka hana kiʻekiʻe ma nā ʻano noi a me nā kikowaena.
Waiho i ka Reply