MultiModal-GPT: jauna robeža valodu un redzes integrācijā

Vai esat kādreiz vēlējies sarunāties ar AI, kas uztver gan runas, gan vizuālos datus? MultiModal-GPT paradigma apvieno valodas apstrādi ar vizuālo izpratni.

Tas piedāvā precīzas un daudzveidīgas cilvēka un datora mijiedarbības iespēju. MultiModal-GPT var nodrošināt aprakstošus parakstus, saskaitīt atsevišķus vienumus un atbildēt uz vispārīgiem lietotāju jautājumiem.

Bet kā tas to dara? Un ko jūs varat darīt ar MultiModal-GPT?

Aizvedīsim stāstu uz sākumu un sapratīsim, kādas iespējas mūs sagaida.

Līdz ar tādu valodu modeļu parādīšanos kā GPT-4 dabiskās valodas apstrādes tehnoloģijas piedzīvo revolūciju. Tādas inovācijas kā ChatGPT jau ir iekļautas mūsu dzīvē.

Un šķiet, ka viņi turpina nākt!

GPT-4 un tā ierobežojumi

GPT-4 ir parādījis pārsteidzošas prasmes multimodālās sarunās ar cilvēkiem. Pētījumos ir mēģināts dublēt šo veiktspēju, taču potenciāli lielā attēla marķieru skaita dēļ modeļi ar precīzu vizuālo informāciju var būt skaitļošanas ziņā dārgi.

Arī esošie modeļi savos pētījumos neietver valodas apmācības regulēšanu, kas ierobežo viņu spēju piedalīties nulles vairāku apgriezienu attēla un teksta sarunās.

Balstoties uz Flamingo ietvaru

Tika izstrādāts jauns modelis ar nosaukumu MultiModal-GPT, lai nodrošinātu saziņu ar cilvēkiem, izmantojot gan lingvistiskas, gan vizuālas norādes.

Izstrādātāji izmantoja programmu, ko sauc par Flamingo karkass, kas iepriekš tika apmācīts saprast gan tekstu, gan vizuālos materiālus, lai tas būtu iespējams.

Flamingo ietvars

Tomēr Flamingo bija nepieciešamas dažas izmaiņas, jo tai nevarēja būt paplašināti dialogi, kas ietvēra tekstu un vizuālos elementus.

Atjauninātais MultiModal-GPT modelis var apkopot datus no attēliem un sajaukt tos ar valodu, lai saprastu un izpildītu cilvēku komandas.

MultiModal-GPT

MultiModal-GPT ir AI modeļa veids, kas var sekot dažādiem cilvēku jautājumiem, piemēram, aprakstot vizuālos materiālus, skaitīt vienumus un atbildēt uz jautājumiem. Tas saprot un izpilda rīkojumus, izmantojot vizuālo un verbālo datu kombināciju.

Pētnieki apmācīja modeli, izmantojot gan vizuālos, gan tikai valodas datus, lai palielinātu MultiModal-GPT spēju sarunāties ar cilvēkiem. Turklāt tas ievērojami uzlaboja tā diskursa veikšanas veidu. Tas arī ievērojami uzlaboja sarunu veiktspēju.

Viņi atklāja, ka augstas kvalitātes apmācības datu iegūšanai ir izšķiroša nozīme labas sarunas veiktspējas nodrošināšanai, jo neliela datu kopa ar īsām atbildēm var ļaut modelim izveidot īsākas atbildes uz jebkuru komandu.

Ko jūs varat darīt ar MultiModal-GPT?

Iesaistīšanās sarunās

Līdzīgi kā iepriekšējiem valodu modeļiem, viena no MultiModal-GPT galvenajām iezīmēm ir tā spēja iesaistīties diskusijās par dabisko valodu. Tas nozīmē, ka patērētāji var mijiedarboties ar modeli tāpat kā ar reālu personu.

Piemēram, MultiModal-GPT var sniegt klientiem detalizētu recepti nūdeļu pagatavošanai vai ieteikt iespējamos restorānus, kur ieturēt maltīti ārpus mājas. Modelis spēj arī atbildēt uz vispārīgiem jautājumiem par lietotāju ceļojuma nodomiem.

Nūdeles

Objektu atpazīšana

MultiModal-GPT var atpazīt lietas fotoattēlos un atbildēt uz jautājumiem par tām. Piemēram, modele var atpazīt Frediju Merkūriju attēlā un atbildēt uz jautājumiem par viņu.

Tas var arī saskaitīt personu skaitu un paskaidrot, ko viņi dara attēlā. Šai objektu identifikācijas jaudai ir pielietojums dažādās jomās, tostarp e-komercijā, veselības aprūpē un drošībā.

Piemērs

MultiModal-GPT var arī atpazīt tekstu digitālajos attēlos. Tas nozīmē, ka modelis var lasīt fotoattēlu tekstu un iegūt noderīgus datus. Tā, piemēram, var noteikt tēlu tēlus un identificēt grāmatas autoru.

Tas ir ārkārtīgi noderīgs rīks dokumentu pārvaldība, datu ievade un satura analīze.

Gandalf

Spriešana un zināšanu radīšana

Multimodālais GPT var pamatot un radīt zināšanas par pasauli. Tas nozīmē, ka tas var sniegt pilnīgus fotoattēlu skaidrojumus un pat pateikt, kurā sezonā attēls tika uzņemts.

Šī prasme ir noderīga dažādās disciplīnās, tostarp vides monitoringā, lauksaimniecībā un meteoroloģijā. Modelis var papildus radīt radošas lietas, piemēram, dzeju, pasakas un dziesmas, padarot to par lielisku rīku radošiem uzdevumiem.

MultiModal-GPT iekšējā darbība

Vienoto instrukciju veidne

Komanda piedāvā vienu veidni unimodālu lingvistisko datu un multimodālo redzes un valodas datu integrācijai, lai pareizi apmācītu MultiModal-GPT modeli sinerģiski.

Šī kombinētā stratēģija mēģina uzlabot modeļa veiktspēju dažādos uzdevumos, izmantojot abu datu modalitātes papildu iespējas un veicinot dziļāku izpratni par pamatā esošajām idejām.

Komanda izmanto Dolly 15k un Alpaca GPT4 datu kopas, lai izmērītu tikai valodas norādījumu izpildes spējas. Šīs datu kopas darbojas kā tūlītēja veidne datu kopas ievades strukturēšanai, lai garantētu konsekventu formātu, kas izpilda norādījumus.

Dolly 15k datu kopas pārskats

Attēls: Doly 15k datu kopas pārskats

Kā modelis darbojas?

MultiModal-GPT modeli veido trīs galvenie komponenti: valodas dekodētājs, uztverēja resampler un redzes kodētājs. Attēlu uzņem redzes kodētājs, kas pēc tam ģenerē to raksturojošo raksturlielumu kolekciju.

Valodas dekodētājs izmanto informāciju no redzes kodētāja, lai ar uztvērēja resampleru palīdzību izveidotu tekstu, kas apraksta attēlu.

Modeļa sastāvdaļa, kas saprot valodu un veido tekstu, ir valodas dekodētājs. Lai paredzētu nākamo vārdu frāzē, modelis tiek apmācīts, izmantojot gan tikai valodas, gan redzes plus valodas norādījumus, kas seko datiem.

Tas iemāca modelim reaģēt uz cilvēku komandām un nodrošina pieņemamu tekstu attēlu aprakstiem.

Modeļi

Komanda aiz muguras

MultiModal-GPT izveidoja Microsoft Research Asia pētnieku un inženieru komanda Tao Gong, Chengqi Lyu un Shilong Zhang vadībā. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo un Kai Chen piedalījās modeļa izpētē un attīstībā.

Dabiskās valodas apstrāde, datora vīzija, un mašīnmācība ir visas komandas kompetences jomas. Viņiem ir vairāki raksti, kas publicēti augstākā līmeņa konferencēs un publikācijās, kā arī dažādi apbalvojumi un atzinības par viņu zinātniskajiem centieniem.

Komandas pētījumi koncentrējas uz progresīvu modeļu un pieeju izstrādi, lai nodrošinātu dabiskāku un inteliģentāku mijiedarbību starp cilvēkiem un tehnoloģijām.

Multimodāla-GPT izstrāde ir vērā ņemams sasniegums šajā jomā, jo tas ir viens no pirmajiem modeļiem, kas apvieno redzējumu un valodu vienā ietvarā vairāku kārtu diskusijām.

Komandas ieguldījums MultiModal-GPT pētniecībā un attīstībā var būtiski ietekmēt dabiskās valodas apstrādes un cilvēka un mašīnas mijiedarbības nākotni.

Kā lietot MultiModal-GPT

Iesācējiem MultiModal-GPT rīka izmantošana ir vienkārša. Vienkārši dodieties uz https://mmgpt.openmmlab.org.cn/ un nospiediet pogu “Augšupielādēt attēlu”.

Izvēlieties augšupielādējamo attēla failu un pēc tam teksta laukā ierakstiet teksta uzvedni. Lai izveidotu atbildi no modeļa, noklikšķiniet uz pogas “Iesniegt”, kas parādīsies zem teksta lauka.

Varat eksperimentēt ar dažādiem fotoattēliem un instrukcijām, lai uzzinātu vairāk par modeļa iespējām.

1. interfeiss

instalēšana

Lai instalētu MultiModal-GPT pakotni, izmantojiet termināļa komandu “git clone https://github.com/open-mmlab/Multimodal-GPT.git”, lai klonētu repozitoriju no GitHub. Varat vienkārši veikt šīs darbības:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternatīvi izmantojiet conda env create -f environment.yml izveidot jaunu conda vidi. Demonstrāciju var palaist lokāli pēc tās instalēšanas, lejupielādējot iepriekš sagatavotos svarus un saglabājot tos kontrolpunktu mapē.

Pēc tam Gradio demonstrāciju var palaist, izpildot komandu “python app.py”.

Iespējamie trūkumi

MultiModal-GPT modelim joprojām ir trūkumi un iespējas attīstīties, neskatoties uz tā lielisko veiktspēju.

Piemēram, strādājot ar sarežģītiem vai neskaidriem vizuāliem ievadiem, modelis ne vienmēr var atpazīt un saprast ievades kontekstu. Tas var izraisīt neprecīzas prognozes vai reakcijas no modeļa.

Turklāt, jo īpaši, ja ievade ir sarežģīta vai beztermiņa, modelis ne vienmēr var nodrošināt vislabāko reakciju vai rezultātu. Piemēram, modeļa atbildi varēja ietekmēt tas, cik līdzīgi izskatījās abu grāmatu vāki, ja grāmatas vāks tika identificēts nepareizi.

Secinājumi

Kopumā MultiModal-GPT modelis ir liels solis uz priekšu dabiskās valodas apstrādē un mašīnmācībā. Un tas ir ļoti aizraujoši to izmantot un eksperimentēt ar to. Tātad, arī jums vajadzētu to izmēģināt!

Tomēr tam, tāpat kā visiem modeļiem, ir ierobežojumi, un tam ir nepieciešama papildu uzlabošana un uzlabošana, lai iegūtu maksimālu veiktspēju dažādās lietojumprogrammās un jomās.