Njẹ o ti fẹ pe o le sọrọ pẹlu AI kan ti o loye mejeeji sisọ ati data wiwo? Ilana MultiModal-GPT ṣe idapọ sisẹ ede pẹlu oye wiwo.
O funni ni iṣeeṣe deede ati ibaraenisepo eniyan-kọmputa. MultiModal-GPT le pese awọn akọle ijuwe, ka awọn ohun kọọkan, ati dahun si awọn ibeere olumulo gbogbogbo.
Ṣugbọn, bawo ni o ṣe ṣe bẹ? Ati, kini o le ṣe pẹlu MultiModal-GPT?
Jẹ ki a mu itan naa lọ si ibẹrẹ ki o loye awọn iṣeṣe ti o wa niwaju wa.
Pẹlu ifarahan ti awọn awoṣe ede bii GPT-4, awọn imọ-ẹrọ iṣelọpọ ede adayeba n jẹri iyipada kan. Awọn imotuntun bii ChatGPT ti wa tẹlẹ ti dapọ si awọn igbesi aye wa.
Ati pe, o dabi pe wọn tẹsiwaju lati wa!
GPT-4 ati Awọn idiwọn Rẹ
GPT-4 ti ṣe afihan pipe iyalẹnu ni awọn ibaraẹnisọrọ multimodal pẹlu eniyan. Awọn ijinlẹ ti ṣe igbiyanju lati ṣe pidánpidán iṣẹ yii, ṣugbọn nitori nọmba ti o ga julọ ti awọn ami aworan, pẹlu awọn awoṣe pẹlu alaye wiwo deede le jẹ gbowolori ni iṣiro.
Awọn awoṣe ti o wa tẹlẹ ko pẹlu ṣiṣatunṣe itọnisọna ede ninu ikẹkọọ wọn, eyiti o ni ihamọ agbara wọn lati kopa ninu awọn ibaraẹnisọrọ ọrọ-aworan alapọ-shot.
Ilé Lori Flamingo Framework
Awoṣe tuntun ti a pe ni MultiModal-GPT ni idagbasoke lati jẹ ki ibaraẹnisọrọ pẹlu awọn eniyan ti nlo mejeeji ede ati awọn ifẹnule wiwo.
Awọn Difelopa naa lo eto ti a pe ni Ilana Flamingo, eyi ti a ti gba ikẹkọ tẹlẹ lati loye mejeeji ọrọ ati awọn wiwo, lati jẹ ki eyi ṣee ṣe.
Flamingo nilo diẹ ninu awọn ayipada, botilẹjẹpe, nitori ko lagbara lati ni awọn ijiroro ti o gbooro ti o pẹlu ọrọ ati awọn wiwo.
Awoṣe MultiModal-GPT ti a ṣe imudojuiwọn le ṣajọ data lati awọn aworan ati dapọ pẹlu ede lati loye ati ṣe awọn ofin eniyan.
MultiModal-GPT
MultiModal-GPT jẹ iru awoṣe AI ti o le tẹle ọpọlọpọ awọn ibeere eniyan gẹgẹbi apejuwe awọn wiwo, kika awọn nkan, ati idahun awọn ibeere. O loye ati tẹle awọn aṣẹ nipa lilo apapọ wiwo ati data ọrọ-ọrọ.
Awọn oniwadi ṣe ikẹkọ awoṣe ni lilo mejeeji wiwo ati data-ede nikan lati mu agbara MultiModal-GPT pọ si lati ba eniyan sọrọ. Ni afikun, o fa ilọsiwaju ti o ṣe akiyesi ni ọna ti a ṣe sọ ọrọ rẹ. O tun yorisi ilọsiwaju akiyesi ni iṣẹ ibaraẹnisọrọ rẹ.
Wọn ṣe awari pe nini data ikẹkọ ti o ni agbara giga jẹ pataki fun iṣẹ ibaraẹnisọrọ to dara, nitori ipilẹ data kekere kan pẹlu awọn idahun kukuru le jẹ ki awoṣe ṣẹda awọn idahun kukuru si eyikeyi aṣẹ.
Kini O le Ṣe Pẹlu MultiModal-GPT?
Ṣiṣepọ ninu Awọn ibaraẹnisọrọ
Gẹgẹbi awọn awoṣe ede ti o wa ṣaaju, ọkan ninu awọn abuda akọkọ ti MultiModal-GPT ni agbara rẹ lati ṣe alabapin ninu awọn ijiroro ede adayeba. Eyi tumọ si pe awọn alabara le ṣe alabapin pẹlu awoṣe gẹgẹ bi wọn yoo ṣe pẹlu eniyan gidi kan.
Fun apẹẹrẹ, MultiModal-GPT le fun awọn alabara ni ilana alaye fun ṣiṣe awọn nudulu tabi ṣeduro awọn ounjẹ ti o ṣeeṣe fun jijẹ jade. Awoṣe naa tun lagbara lati dahun si awọn ibeere jeneriki nipa awọn ero irin ajo olumulo.
Ti idanimọ Awọn nkan
MultiModal-GPT le ṣe idanimọ awọn nkan ni awọn fọto ati dahun si awọn ibeere nipa wọn. Fun apẹẹrẹ, awoṣe le ṣe idanimọ Freddie Mercury ni aworan kan ati dahun si awọn ibeere nipa rẹ.
O tun le ka iye awọn eniyan kọọkan ati ṣe alaye ohun ti wọn nṣe ni aworan kan. Agbara idanimọ nkan yii ni awọn ohun elo ni ọpọlọpọ awọn aaye, pẹlu iṣowo e-commerce, ilera, ati aabo.
MultiModal-GPT tun le da ọrọ mọ inu awọn aworan oni-nọmba. Eyi tumọ si pe awoṣe le ka ọrọ ninu awọn fọto ati jade data to wulo. O le, fun apẹẹrẹ, ṣawari awọn ohun kikọ ninu aworan kan ki o ṣe idanimọ ẹniti o kọ iwe kan.
O ti wa ni ohun lalailopinpin wulo ọpa fun iṣakoso iwe, igbewọle data, ati itupalẹ akoonu.
Idi ati Iran ti Imọ
Olona-modal-GPT le ronu ati gbejade imọ nipa agbaye. Eyi tumọ si pe o le pese awọn alaye ni kikun ti awọn fọto ati paapaa sọ fun wọn ni akoko wo ni a ya aworan naa.
Imọ-iṣe yii wulo ni ọpọlọpọ awọn ilana-iṣe, pẹlu abojuto ayika, iṣẹ-ogbin, ati meteorology. Awoṣe naa le ṣe agbekalẹ awọn nkan ti o ṣẹda bii ewi, awọn itan-akọọlẹ, ati awọn orin, ṣiṣe ni ohun elo ti o tayọ fun awọn iṣẹ-ṣiṣe ẹda.
Awọn iṣẹ inu ti MultiModal-GPT
Awoṣe fun Iṣọkan Awọn ilana
Ẹgbẹ naa ṣafihan awoṣe kan fun isọpọ ti data ede unimodal ati data iran-ati-ede multimodal lati ṣe ikẹkọ awoṣe MultiModal-GPT daradara ni ọna amuṣiṣẹpọ.
Ilana apapọ yii ngbiyanju lati mu ilọsiwaju iṣẹ awoṣe kọja awọn iṣẹ ṣiṣe lọpọlọpọ nipa lilo awọn agbara ibaramu ti awọn ilana data mejeeji ati iwuri oye ti o jinlẹ ti awọn imọran abẹlẹ.
Awọn ipilẹ data Dolly 15k ati Alpaca GPT4 jẹ lilo nipasẹ ẹgbẹ lati wiwọn awọn agbara-tẹle itọnisọna ede-nikan. Awọn ipilẹ data wọnyi n ṣiṣẹ bi awoṣe kiakia fun ṣiṣe atunto igbewọle data lati ṣe iṣeduro ọna kika itọni deede.
Aworan: Akopọ ti Doly 15k dataset
Bawo ni Awoṣe Nṣiṣẹ?
Awọn paati bọtini mẹta jẹ apẹrẹ MultiModal-GPT: oluyipada ede kan, oluṣatunṣe iwoye, ati koodu koodu iran. Aworan naa ni a ya nipasẹ koodu koodu iran, eyiti o ṣe agbekalẹ akojọpọ awọn abuda ti o ṣe apejuwe rẹ.
Olupilẹṣẹ ede nlo alaye naa lati inu koodu koodu iran lati ṣẹda ọrọ ti o ṣe apejuwe aworan pẹlu iranlọwọ ti oluṣatunṣe atunwo.
Ẹya ara ẹrọ ti awoṣe ti o loye ede ti o si ṣe agbejade ọrọ jẹ oluyipada ede. Lati ṣe asọtẹlẹ ọrọ atẹle ni gbolohun ọrọ kan, awoṣe naa jẹ ikẹkọ nipa lilo ede-nikan ati iran-plus ẹkọ ẹkọ-ede data atẹle.
Eyi nkọ awoṣe bi o ṣe le fesi si awọn aṣẹ lati ọdọ eniyan ati pese ọrọ itẹwọgba fun awọn apejuwe aworan.
Egbe Lẹhin
MultiModal-GPT ni a ṣẹda nipasẹ ẹgbẹ kan ti Microsoft Research Asia awọn oniwadi ati awọn onimọ-ẹrọ ti o jẹ itọsọna nipasẹ Tao Gong, Chengqi Lyu, ati Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ati Kai Chen gbogbo wọn ṣe alabapin si ikẹkọ ati idagbasoke awoṣe.
Ṣiṣẹda ede adayeba, oju kọmputa, ati ẹkọ ẹrọ jẹ gbogbo awọn agbegbe ti ijafafa fun ẹgbẹ naa. Wọn ni ọpọlọpọ awọn nkan ti a tẹjade ni awọn apejọ ipele-oke ati awọn atẹjade, bii ọpọlọpọ awọn ọlá ati awọn iyin fun awọn akitiyan imọ-jinlẹ wọn.
Iwadi ti ẹgbẹ naa fojusi lori idagbasoke ti awọn awoṣe gige-eti ati awọn isunmọ lati jẹ ki awọn ibaraenisepo adayeba diẹ sii ati oye laarin eniyan ati imọ-ẹrọ.
Idagbasoke Multi-modal-GPT jẹ aṣeyọri akiyesi ni aaye nitori pe o jẹ ọkan ninu awọn awoṣe akọkọ lati darapo iran ati ede ni ilana kan fun ijiroro pupọ-yika.
Awọn ifunni ẹgbẹ si MultiModal-GPT iwadii ati idagbasoke ni agbara lati ni ipa pataki lori ọjọ iwaju ti sisẹ ede adayeba ati awọn ibaraenisepo eniyan-ẹrọ.
Bii o ṣe le Lo MultiModal-GPT
Fun awọn olubere, lilo MultiModal-GPT ọpa jẹ rọrun. Nìkan lọ si https://mmgpt.openmmlab.org.cn/ ki o si tẹ bọtini "Po si aworan".
Yan faili aworan lati gbejade, lẹhinna tẹ ọrọ tọ sinu aaye ọrọ. Lati ṣẹda esi lati awoṣe, tẹ bọtini "Firanṣẹ", eyi ti yoo han ni isalẹ aaye ọrọ.
O le ṣe idanwo pẹlu awọn fọto oriṣiriṣi ati awọn itọnisọna lati ni imọ siwaju sii nipa awọn agbara awoṣe.
fifi
Lati fi idii MultiModal-GPT sori ẹrọ, lo pipaṣẹ ebute “git clone https://github.com/open-mmlab/Multimodal-GPT.git” lati ṣe ẹda ibi ipamọ lati GitHub. O le kan tẹle awọn igbesẹ wọnyi:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
Ni omiiran, lo conda env create -f environment.yml
lati fi idi kan titun conda ayika. O le ṣiṣe demo ni agbegbe lẹhin fifi sori ẹrọ nipasẹ gbigba awọn iwọn ti a ti kọ tẹlẹ ati fifipamọ wọn sinu folda awọn aaye ayẹwo.
Demo Gradio le lẹhinna ṣe ifilọlẹ nipasẹ ṣiṣe pipaṣẹ “python app.py”.
O pọju Drawbacks
Awoṣe MultiModal-GPT tun ni awọn abawọn ati yara fun idagbasoke laibikita iṣẹ ṣiṣe ti o dara julọ.
Fún àpẹrẹ, nígbà tí a bá ń báni lò pẹ̀lú dídíjú tàbí àwọn àbáwọlé ìríran, àwòṣe náà le ma ni anfani nigbagbogbo lati ṣe idanimọ ati loye ayika ti igbewọle naa. Eyi le ja si awọn asọtẹlẹ ti ko pe tabi awọn aati lati inu awoṣe.
Ni afikun, ni pataki nigbati titẹ sii ba jẹ idiju tabi ṣiṣi, awoṣe le ma gbejade esi to dara julọ tabi abajade nigbagbogbo. Idahun awoṣe naa, fun apẹẹrẹ, le ti ni ipa nipasẹ bii iru awọn ideri iwe meji ṣe wo ni ọran ti idanimọ ti ko tọ ti ideri iwe kan.
ipari
Lapapọ, awoṣe MultiModal-GPT ṣe aṣoju igbesẹ nla siwaju ninu sisẹ ede adayeba ati ẹkọ ẹrọ. Ati pe, o jẹ igbadun pupọ lati lo ati ṣe idanwo pẹlu rẹ. Nitorinaa, o yẹ ki o gbiyanju boya!
Sibẹsibẹ, o ni awọn ifilelẹ lọ, gẹgẹbi gbogbo awọn awoṣe, ati pe o nilo isọdọtun afikun ati imudara lati gba iṣẹ ti o pọju ni orisirisi awọn ohun elo ati awọn ibugbe.
Fi a Reply