MultiModal-GPT: uus piir keele ja visiooni integreerimisel

Kas olete kunagi soovinud, et saaksite vestelda tehisintellektiga, mis mõistab nii kõne- kui ka visuaalseid andmeid? MultiModal-GPT paradigma ühendab keeletöötluse visuaalse mõistmisega.

See pakub võimalust täpseks ja mitmekülgseks inimese ja arvuti suhtluseks. MultiModal-GPT oskab pakkuda kirjeldavaid pealkirju, loendada üksikuid üksusi ja vastata üldistele kasutajaküsimustele.

Aga kuidas see seda teeb? Ja mida saate MultiModal-GPT-ga teha?

Viime loo algusesse ja mõistame meid ees ootavaid võimalusi.

Keelemudelite, nagu GPT-4, esilekerkimisega on loomuliku keele töötlemise tehnoloogiad tunnistajaks revolutsioonile. Sellised uuendused nagu ChatGPT on meie ellu juba kaasatud.

Ja tundub, et neid tuleb aina juurde!

GPT-4 ja selle piirangud

GPT-4 on näidanud hämmastavat oskust inimestega multimodaalsetes vestlustes. Uuringud on püüdnud seda jõudlust dubleerida, kuid pildimärkide potentsiaalselt suure arvu tõttu võivad täpse visuaalse teabega mudelid olla arvutuslikult kallid.

Olemasolevad mudelid ei hõlma oma uuringusse ka keeleõpetuse häälestamist, mis piirab nende võimalust osaleda nullkaadris mitme pöördega pilt-tekstivestlustes.

Flamingo raamistikule tuginemine

Uus mudel nimega MultiModal-GPT töötati välja, et võimaldada inimestega suhtlemist nii keeleliste kui ka visuaalsete näpunäidete abil.

Arendajad kasutasid programmi nimega the Flamingo raamistik, mida oli varem koolitatud nii teksti kui ka visuaalide mõistmiseks, et see oleks teostatav.

Flamingo raamistik

Flamingo vajas siiski mõningaid muudatusi, kuna tal ei olnud võimalik laiendada teksti ja visuaale sisaldavaid dialooge.

Uuendatud MultiModal-GPT mudel suudab koguda piltidelt andmeid ja segada neid keelega, et mõista ja täita inimkäske.

MultiModal-GPT

MultiModal-GPT on AI-mudel, mis suudab järgida erinevaid inimeste päringuid, nagu visuaalide kirjeldamine, üksuste loendamine ja küsimustele vastamine. See mõistab ja järgib korraldusi, kasutades visuaalseid ja verbaalseid andmeid.

Teadlased koolitasid mudelit nii visuaalsete kui ka keeleandmete abil, et suurendada MultiModal-GPT võimet inimestega vestelda. Lisaks põhjustas see märgatava paranemise selle diskursuse läbiviimise viisis. Selle tulemuseks oli ka vestluse jõudluse märgatav paranemine.

Nad avastasid, et kvaliteetsete koolitusandmete omamine on vestluse hea toimivuse jaoks ülioluline, sest väike lühikeste vastustega andmestik võib võimaldada mudelil luua mis tahes käsule lühemaid vastuseid.

Mida saate MultiModal-GPT-ga teha?

Vestlustesse kaasamine

Sarnaselt varasemate keelemudelitega on ka MultiModal-GPT üks peamisi omadusi võime osaleda loomulikus keeles toimuvates aruteludes. See tähendab, et tarbijad võivad mudeliga suhelda nagu päris inimesega.

Näiteks võib MultiModal-GPT anda klientidele üksikasjaliku retsepti nuudlite valmistamiseks või soovitada võimalikke restorane väljas einestamiseks. Mudel on võimeline vastama ka üldistele küsimustele kasutajate reisikavatsuste kohta.

Nuudlid

Objektide äratundmine

MultiModal-GPT suudab fotodel olevaid asju ära tunda ja vastata nende kohta tehtud päringutele. Näiteks suudab modell Freddie Mercury pildil ära tunda ja vastata tema kohta tehtud päringutele.

Samuti saab see kokku lugeda inimeste arvu ja selgitada, mida nad pildil teevad. Sellel objektide tuvastamise võimel on rakendusi erinevates valdkondades, sealhulgas e-kaubanduses, tervishoius ja turvalisuses.

Näide

MultiModal-GPT suudab ära tunda ka teksti digitaalsete piltide sees. See tähendab, et mudel suudab lugeda fotodel olevat teksti ja hankida kasulikke andmeid. See võib näiteks tuvastada pildi tegelased ja tuvastada raamatu autori.

See on äärmiselt kasulik tööriist dokumendihaldus, andmete sisestamine ja sisuanalüüs.

Gandalf

Arutluskäik ja teadmiste genereerimine

Multimodaalne-GPT võib põhjendada ja luua teadmisi maailma kohta. See tähendab, et see võib anda fotode kohta täielikke selgitusi ja isegi öelda, mis aastaajal pilt tehti.

See oskus on kasulik paljudes valdkondades, sealhulgas keskkonnaseires, põllumajanduses ja meteoroloogias. Mudel võib lisaks genereerida loomingulisi asju, nagu luule, lood ja laulud, muutes selle suurepäraseks tööriistaks loominguliste ülesannete jaoks.

MultiModal-GPT sisemine töö

Ühtsete juhiste mall

Meeskond esitleb üht malli unimodaalsete keeleandmete ja multimodaalsete nägemis- ja keeleandmete integreerimiseks, et koolitada MultiModal-GPT mudelit sünergiliselt.

See kombineeritud strateegia püüab parandada mudeli jõudlust mitmesuguste ülesannete puhul, kasutades ära mõlema andmemodaalsuse üksteist täiendavaid võimalusi ja soodustades ideede sügavamat mõistmist.

Meeskond kasutab Dolly 15k ja Alpaca GPT4 andmekogumeid, et mõõta ainult keelejuhiste järgimise võimeid. Need andmestikud toimivad kiire mallina andmestiku sisendi struktureerimiseks, et tagada järjepidev juhiste järgimise vorming.

Dolly 15k andmestiku ülevaade

Pilt: Doly 15k andmekogumi ülevaade

Kuidas mudel töötab?

MultiModal-GPT mudeli moodustavad kolm põhikomponenti: keeledekooder, tajuri resampler ja nägemiskooder. Pildi võtab nägemise kodeerija, mis seejärel genereerib seda iseloomustavate omaduste kogumi.

Keeledekooder kasutab nägemiskodeerijalt saadud teavet, et luua tajuja resampleri abil pilti kirjeldav tekst.

Mudeli komponent, mis mõistab keelt ja toodab teksti, on keeledekooder. Fraasis järgmise sõna ennustamiseks koolitatakse mudelit nii ainult keele kui ka nägemuse pluss keelejuhiste järgimise andmete abil.

See õpetab mudelile reageerima inimeste käskudele ja pakub piltide kirjelduste jaoks vastuvõetavat teksti.

MUDEL

Meeskond taga

MultiModal-GPT lõi Microsoft Research Asia teadlaste ja inseneride meeskond, mida juhivad Tao Gong, Chengqi Lyu ja Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo ja Kai Chen aitasid kõik kaasa mudeli uurimisele ja arendamisele.

Loomuliku keele töötlemine, arvuti nägemineja masinõpe on kõik meeskonna pädevusvaldkonnad. Neil on mitmeid tipptasemel konverentsidel ja väljaannetes avaldatud artikleid, samuti on neil teaduslike jõupingutuste eest mitmeid autasusid ja tunnustusi.

Meeskonna uurimistöö keskendub tipptasemel mudelite ja lähenemisviiside väljatöötamisele, et võimaldada loomulikumat ja intelligentsemat suhtlust inimeste ja tehnoloogia vahel.

Multimodaalse GPT arendus on selles valdkonnas märkimisväärne saavutus, kuna see on üks esimesi mudeleid, mis ühendab nägemuse ja keele ühtses mitmevoorulise arutelu raamistikus.

Meeskonna panus MultiModal-GPT uurimis- ja arendustegevusse võib oluliselt mõjutada loomuliku keele töötlemise ja inimese ja masina interaktsiooni tulevikku.

Kuidas kasutada MultiModal-GPT-d

Algajatele on MultiModal-GPT tööriista kasutamine lihtne. Lihtsalt minge aadressile https://mmgpt.openmmlab.org.cn/ ja vajutage nuppu "Laadi pilt üles".

Valige üleslaaditav pildifail ja tippige tekstiväljale viip. Mudeli põhjal vastuse loomiseks klõpsake tekstivälja alla ilmuval nupul "Esita".

Mudeli võimaluste kohta lisateabe saamiseks võite katsetada erinevate fotode ja juhistega.

Liides 1

paigaldamine

MultiModal-GPT paketi installimiseks kasutage GitHubist hoidla kloonimiseks terminali käsku "git clone https://github.com/open-mmlab/Multimodal-GPT.git". Saate lihtsalt järgida neid samme.

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Teise võimalusena kasutage conda env create -f environment.yml uue conda keskkonna rajamiseks. Saate demo käivitada kohapeal pärast selle installimist, laadides alla eelnevalt treenitud kaalud ja salvestades need kontrollpunktide kausta.

Seejärel saab Gradio demo käivitada, käivitades käsu „python app.py”.

Võimalikud puudused

MultiModal-GPT mudelil on vaatamata suurepärasele jõudlusele endiselt vigu ja arenguruumi.

Näiteks keeruliste või mitmetähenduslike visuaalsete sisenditega tegelemisel ei pruugi mudel alati suutma sisendi konteksti ära tunda ja mõista. See võib põhjustada mudeli ebatäpseid ennustusi või reaktsioone.

Lisaks, eriti kui sisend on keeruline või avatud, ei pruugi mudel alati anda parimat reaktsiooni või tulemust. Mudeli vastust võis näiteks mõjutada see, kui sarnased kahe raamatu kaaned raamatukaane vale tuvastamise korral välja nägid.

Järeldus

Üldiselt on MultiModal-GPT mudel suur samm edasi loomuliku keele töötlemise ja masinõppe vallas. Ja seda on väga põnev kasutada ja sellega katsetada. Nii et peaksite ka proovima!

Sellel on aga piirangud, nagu ka kõigil mudelitel, ning see nõuab täiendavat viimistlemist ja täiustamist, et saavutada maksimaalne jõudlus erinevates rakendustes ja domeenides.