MultiModal-GPT: nauja kalbos ir vizijos integravimo riba

Ar kada nors norėjote kalbėtis su dirbtiniu intelektu, kuris supranta ir žodinius, ir vaizdinius duomenis? MultiModal-GPT paradigma sujungia kalbos apdorojimą su vizualiniu supratimu.

Tai suteikia tikslios ir įvairios žmogaus ir kompiuterio sąveikos galimybę. MultiModal-GPT gali pateikti aprašomuosius antraštes, suskaičiuoti atskirus elementus ir atsakyti į bendrus vartotojų klausimus.

Bet kaip tai daro? Ir ką jūs galite padaryti su MultiModal-GPT?

Perkelkime istoriją į pradžią ir supraskime, kokios galimybės mūsų laukia.

Atsiradus kalbos modeliams, tokiems kaip GPT-4, natūralios kalbos apdorojimo technologijos liudija revoliuciją. Tokios naujovės kaip „ChatGPT“ jau buvo įtrauktos į mūsų gyvenimą.

Ir atrodo, kad jie vis ateina!

GPT-4 ir jo apribojimai

GPT-4 parodė nuostabų daugiarūšio pokalbio su žmonėmis įgūdžius. Tyrimais buvo stengiamasi dubliuoti šį našumą, tačiau dėl potencialiai didelio paveikslėlių žetonų skaičiaus, įskaitant modelius su tikslia vaizdine informacija, skaičiavimai gali būti brangūs.

Esami modeliai taip pat neįtraukia kalbos mokymo derinimo į savo tyrimą, o tai riboja jų galimybę dalyvauti nuliniuose daugiapakopiuose vaizdo ir teksto pokalbiuose.

Remiantis Flamingo karkasu

Buvo sukurtas naujas modelis, vadinamas MultiModal-GPT, kad būtų galima bendrauti su žmonėmis naudojant kalbinius ir vaizdinius signalus.

Kūrėjai panaudojo programą, pavadintą Flamingo karkasas, kuri anksčiau buvo išmokyta suprasti ir tekstą, ir vaizdus, kad tai būtų įmanoma.

Flamingo karkasas

Tačiau „Flamingo“ reikėjo kai kurių pakeitimų, nes jis negalėjo turėti išplėstinių dialogų, kuriuose būtų tekstas ir vaizdiniai elementai.

Atnaujintas MultiModal-GPT modelis gali rinkti duomenis iš paveikslėlių ir sumaišyti juos su kalba, kad suprastų ir vykdytų žmogaus komandas.

MultiModal-GPT

„MultiModal-GPT“ yra dirbtinio intelekto modelio tipas, galintis sekti įvairius žmogaus užklausas, pvz., apibūdinti vaizdus, skaičiuoti elementus ir atsakyti į klausimus. Jis supranta ir vykdo nurodymus naudodamas vaizdinių ir žodinių duomenų derinį.

Tyrėjai apmokė modelį naudodami vaizdinius ir tik kalbos duomenis, kad padidintų MultiModal-GPT gebėjimą bendrauti su žmonėmis. Be to, dėl to pastebimai pagerėjo jo diskurso atlikimo būdas. Dėl to taip pat pastebimai pagerėjo pokalbio našumas.

Jie išsiaiškino, kad norint užtikrinti gerą pokalbio našumą labai svarbu turėti aukštos kokybės mokymo duomenis, nes mažas duomenų rinkinys su trumpais atsakymais gali leisti modeliui sukurti trumpesnius atsakymus į bet kurią komandą.

Ką galite padaryti naudodami „MultiModal-GPT“?

Dalyvavimas pokalbiuose

Kaip ir anksčiau buvę kalbų modeliai, viena iš pagrindinių MultiModal-GPT ypatybių yra gebėjimas dalyvauti diskusijose natūralia kalba. Tai reiškia, kad vartotojai gali bendrauti su modeliu taip, kaip su tikru asmeniu.

Pavyzdžiui, „MultiModal-GPT“ gali pateikti klientams išsamų makaronų gaminimo receptą arba rekomenduoti galimus restoranus, kuriuose galima pavalgyti. Modelis taip pat gali atsakyti į bendrus klausimus apie vartotojų ketinimus keliauti.

Makaronai

Objektų atpažinimas

MultiModal-GPT gali atpažinti daiktus nuotraukose ir atsakyti į užklausas apie juos. Pavyzdžiui, modelis gali atpažinti Freddie Mercury nuotraukoje ir atsakyti į užklausas apie jį.

Jis taip pat gali suskaičiuoti asmenų skaičių ir paaiškinti, ką jie daro paveikslėlyje. Šis objekto identifikavimo pajėgumas yra pritaikytas įvairiose srityse, įskaitant elektroninę prekybą, sveikatos priežiūrą ir saugumą.

Pavyzdys

MultiModal-GPT taip pat gali atpažinti tekstą skaitmeninėse nuotraukose. Tai reiškia, kad modelis gali skaityti nuotraukose esantį tekstą ir išgauti naudingų duomenų. Pavyzdžiui, jis gali aptikti paveikslo veikėjus ir identifikuoti knygos autorių.

Tai itin naudinga priemonė dokumentų tvarkymas, duomenų įvedimas ir turinio analizė.

Gandalf

Samprotavimas ir žinių generavimas

Multimodalinis GPT gali mąstyti ir sukurti žinių apie pasaulį. Tai reiškia, kad jis gali pateikti išsamius nuotraukų paaiškinimus ir netgi pasakyti, kuriuo metų laiku vaizdas buvo darytas.

Šis įgūdis yra naudingas įvairiose disciplinose, įskaitant aplinkos stebėjimą, žemės ūkį ir meteorologiją. Modelis gali papildomai kurti kūrybinius dalykus, pvz., poeziją, pasakas ir dainas, todėl jis yra puikus įrankis kūrybinėms užduotims atlikti.

Vidinis MultiModal-GPT veikimas

Vieningų instrukcijų šablonas

Komanda pateikia vieną šabloną, skirtą unimodaliniams kalbiniams duomenims ir multimodaliniams vizijos ir kalbos duomenims integruoti, kad būtų galima sinergiškai tinkamai išmokyti MultiModal-GPT modelį.

Šia kombinuota strategija bandoma pagerinti modelio našumą atliekant įvairias užduotis, išnaudojant vienas kitą papildančias abiejų duomenų modalumo galimybes ir skatinant giliau suprasti pagrindines idėjas.

Komanda naudoja „Dolly 15k“ ir „Alpaca GPT4“ duomenų rinkinius, kad išmatuotų tik kalbos mokymosi gebėjimus. Šie duomenų rinkiniai veikia kaip greitas šablonas duomenų rinkinio įvesties struktūrai užtikrinti, kad būtų užtikrintas nuoseklus instrukcijų vykdymo formatas.

Dolly 15k duomenų rinkinio apžvalga

Vaizdas: Doly 15k duomenų rinkinio apžvalga

Kaip veikia modelis?

Trys pagrindiniai komponentai sudaro „MultiModal-GPT“ modelį: kalbos dekoderis, suvokimo resampleris ir regėjimo kodavimo įrenginys. Vaizdą užfiksuoja regėjimo koduotuvas, kuris vėliau sukuria jam būdingų charakteristikų rinkinį.

Kalbos dekoderis naudoja informaciją iš regos koduotuvo, kad sukurtų tekstą, apibūdinantį vaizdą, naudojant suvokėjo resamplerį.

Modelio komponentas, kuris supranta kalbą ir sukuria tekstą, yra kalbos dekoderis. Kad būtų galima numatyti kitą žodį frazėje, modelis mokomas naudojant tik kalbos ir vizijos plius kalbos nurodymus.

Tai moko modelį, kaip reaguoti į žmonių komandas, ir pateikia priimtiną tekstą paveikslėlių aprašymams.

Modelis

Komanda už nugaros

„MultiModal-GPT“ sukūrė „Microsoft Research Asia“ tyrėjų ir inžinierių komanda, vadovaujama Tao Gong, Chengqi Lyu ir Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo ir Kai Chen prisidėjo prie modelio studijų ir tobulinimo.

Natūralios kalbos apdorojimas, kompiuterio vizija, o mašininis mokymasis – visos komandos kompetencijos sritys. Jie turi keletą straipsnių, paskelbtų aukščiausio lygio konferencijose ir leidiniuose, taip pat įvairiais apdovanojimais ir pagyrimais už mokslines pastangas.

Grupės tyrime pagrindinis dėmesys skiriamas pažangiausių modelių ir metodų kūrimui, kurie įgalintų natūralesnę ir protingesnę žmonių ir technologijų sąveiką.

Daugiarūšio GPT kūrimas yra vertas dėmesio šioje srityje, nes tai vienas iš pirmųjų modelių, sujungiančių viziją ir kalbą į vieną sistemą, skirtą įvairioms diskusijoms.

Komandos indėlis į MultiModal-GPT mokslinius tyrimus ir plėtrą gali turėti didelės įtakos natūralios kalbos apdorojimo ir žmogaus bei mašinos sąveikos ateičiai.

Kaip naudotis MultiModal-GPT

Pradedantiesiems naudoti MultiModal-GPT įrankį paprasta. Tiesiog eikite į https://mmgpt.openmmlab.org.cn/ ir paspauskite mygtuką „Įkelti vaizdą“.

Pasirinkite paveikslėlio failą, kurį norite įkelti, tada įveskite teksto raginimą į teksto lauką. Norėdami sukurti atsakymą iš modelio, spustelėkite mygtuką „Pateikti“, kuris atsiras po teksto lauku.

Galite eksperimentuoti su skirtingomis nuotraukomis ir instrukcijomis, kad sužinotumėte daugiau apie modelio galimybes.

1 sąsaja

Diegimas

Norėdami įdiegti „MultiModal-GPT“ paketą, naudokite terminalo komandą „git clone https://github.com/open-mmlab/Multimodal-GPT.git“, kad klonuotų saugyklą iš „GitHub“. Galite tiesiog atlikti šiuos veiksmus:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Arba naudokite conda env create -f environment.yml sukurti naują conda aplinką. Įdiegę demonstracinę versiją galite paleisti vietoje, atsisiųsdami iš anksto paruoštus svorius ir išsaugodami juos kontrolinių punktų aplanke.

Tada „Gradio“ demonstracinė versija gali būti paleista vykdant komandą „python app.py“.

Galimi trūkumai

Nepaisant puikaus veikimo, „MultiModal-GPT“ modelis vis dar turi trūkumų ir erdvės tobulėjimui.

Pavyzdžiui, kai kalbama apie sudėtingas ar dviprasmiškas vaizdines įvestis, modelis ne visada gali atpažinti ir suprasti įvesties kontekstą. Dėl to modelio prognozės arba reakcijos gali būti netikslios.

Be to, ypač kai įvestis yra sudėtinga arba neribota, modelis ne visada gali duoti geriausią reakciją ar rezultatą. Pavyzdžiui, modelio atsakymą galėjo paveikti tai, kaip panašiai atrodė dviejų knygų viršeliai, neteisingai identifikavus knygos viršelį.

Išvada

Apskritai, MultiModal-GPT modelis yra didelis žingsnis į priekį natūralios kalbos apdorojimo ir mašininio mokymosi srityje. Be to, labai įdomu jį naudoti ir eksperimentuoti. Taigi, jūs taip pat turėtumėte tai išbandyti!

Tačiau jis, kaip ir visi modeliai, turi apribojimų ir reikalauja papildomo tobulinimo ir tobulinimo, kad būtų pasiektas maksimalus našumas įvairiose programose ir srityse.