MultiModal-GPT: Nova meja v integraciji jezika in vida

Ste si kdaj zaželeli, da bi se lahko pogovarjali z umetno inteligenco, ki razume govorne in vizualne podatke? Paradigma MultiModal-GPT združuje jezikovno obdelavo z vizualnim razumevanjem.

Ponuja možnost natančne in raznolike interakcije med človekom in računalnikom. MultiModal-GPT lahko zagotovi opisne napise, prešteje posamezne elemente in odgovori na splošna vprašanja uporabnikov.

Ampak, kako to naredi? In kaj lahko storite z MultiModal-GPT?

Peljimo zgodbo na začetek in razumejmo možnosti, ki so pred nami.

S pojavom jezikovnih modelov, kot je GPT-4, so tehnologije obdelave naravnega jezika priča revoluciji. Inovacije, kot je ChatGPT, so že vključene v naša življenja.

In zdi se, da kar naprej prihajajo!

GPT-4 in njegove omejitve

GPT-4 je pokazal neverjetno spretnost v multimodalnih pogovorih z ljudmi. Študije so si prizadevale podvojiti to zmogljivost, vendar je lahko zaradi potencialno velikega števila slikovnih žetonov, vključno z modeli z natančnimi vizualnimi informacijami, računsko drago.

Obstoječi modeli prav tako ne vključujejo uglaševanja jezikovnih navodil v svoji študiji, kar omejuje njihovo zmožnost sodelovanja v pogovorih s sliko in besedilom z več obračanji v nič.

Gradnja na ogrodju Flamingo

Nov model, imenovan MultiModal-GPT, je bil razvit za omogočanje komunikacije z ljudmi z uporabo jezikovnih in vizualnih znakov.

Razvijalci so uporabili program, imenovan okvir Flamingo, ki je bil predhodno usposobljen za razumevanje besedila in vizualnih elementov, da je to izvedljivo.

Ogrodje Flamingo

Flamingo je sicer potreboval nekaj sprememb, saj ni mogel imeti razširjenih dialogov, ki bi vključevali besedilo in vizualne elemente.

Posodobljeni model MultiModal-GPT lahko zbira podatke iz slik in jih meša z jezikom za razumevanje in izvajanje človeških ukazov.

MultiModal-GPT

MultiModal-GPT je vrsta modela AI, ki lahko sledi različnim človeškim poizvedbam, kot so opisovanje vizualnih elementov, štetje predmetov in odgovarjanje na vprašanja. Razume in sledi ukazom z uporabo mešanice vizualnih in verbalnih podatkov.

Raziskovalci so usposobili model z uporabo vizualnih in jezikovnih podatkov, da bi povečali zmogljivost MultiModal-GPT za pogovor z ljudmi. Poleg tega je povzročil opazen napredek v načinu izvedbe njegovega diskurza. Rezultat je tudi opazno izboljšanje njegove uspešnosti pogovorov.

Odkrili so, da je imeti visokokakovostne podatke o usposabljanju ključnega pomena za dobro uspešnost pogovora, saj lahko majhen nabor podatkov s kratkimi odzivi omogoči modelu, da ustvari krajše odzive na kateri koli ukaz.

Kaj lahko storite z MultiModal-GPT?

Vključevanje v pogovore

Tako kot jezikovni modeli, ki so bili pred tem, je ena od glavnih značilnosti MultiModal-GPT njegova zmožnost vključevanja v razprave v naravnem jeziku. To pomeni, da lahko potrošniki sodelujejo z modelom tako kot z resnično osebo.

Na primer, MultiModal-GPT lahko strankam ponudi podroben recept za pripravo rezancev ali priporoči možne restavracije za obedovanje zunaj. Model je tudi sposoben odgovarjati na splošna vprašanja o namerah potovanja uporabnikov.

Rezanci

Prepoznavanje predmetov

MultiModal-GPT lahko prepozna stvari na fotografijah in odgovori na vprašanja o njih. Model lahko na primer prepozna Freddieja Mercuryja na sliki in odgovori na vprašanja o njem.

Lahko tudi prešteje število posameznikov in razloži, kaj počnejo na sliki. Ta zmogljivost identifikacije objektov ima aplikacije na različnih področjih, vključno z e-trgovino, zdravstvenim varstvom in varnostjo.

Primer

MultiModal-GPT lahko prepozna tudi besedilo znotraj digitalnih slik. To pomeni, da lahko model prebere besedilo na fotografijah in izvleče uporabne podatke. Lahko na primer zazna znake na sliki in identificira avtorja knjige.

Je izjemno uporabno orodje za upravljanje dokumentov, vnos podatkov in analiza vsebine.

Gandalf

Razmišljanje in ustvarjanje znanja

Multi-modal-GPT lahko razmišlja in proizvaja znanje o svetu. To pomeni, da lahko zagotovi popolne razlage fotografij in jim celo pove, v katerem letnem času je bila slika posneta.

Ta veščina je uporabna v različnih disciplinah, vključno s spremljanjem okolja, kmetijstvom in meteorologijo. Model lahko dodatno ustvarja ustvarjalne stvari, kot so poezija, pravljice in pesmi, zaradi česar je odlično orodje za ustvarjalne naloge.

Notranje delovanje MultiModal-GPT

Predloga za poenotena navodila

Ekipa predstavlja eno samo predlogo za integracijo unimodalnih jezikovnih podatkov in multimodalnih podatkov o vidu in jeziku za pravilno usposabljanje modela MultiModal-GPT na sinergističen način.

Ta združena strategija poskuša izboljšati učinkovitost modela pri različnih nalogah z izkoriščanjem komplementarnih zmožnosti obeh modalitet podatkov in spodbujanjem globljega razumevanja temeljnih idej.

Podatkovna niza Dolly 15k in Alpaca GPT4 ekipa uporablja za merjenje sposobnosti sledenja navodilom samo v jeziku. Ti nabori podatkov delujejo kot promptna predloga za strukturiranje vnosa nabora podatkov, da se zagotovi dosleden format, ki sledi navodilom.

Pregled nabora podatkov Dolly 15k

Slika: Pregled nabora podatkov Doly 15k

Kako model deluje?

Tri ključne komponente sestavljajo model MultiModal-GPT: jezikovni dekoder, zaznavni ponovni vzorčevalnik in vidni kodirnik. Sliko sprejme vidni kodirnik, ki nato ustvari zbirko značilnosti, ki jo označujejo.

Jezikovni dekoder uporablja informacije iz vidnega kodirnika za ustvarjanje besedila, ki opisuje sliko s pomočjo zaznavalnega ponovnega vzorčenja.

Komponenta modela, ki razume jezik in proizvede besedilo, je jezikovni dekoder. Za predvidevanje naslednje besede v frazi se model usposobi z uporabo podatkov samo za jezik in podatkov, ki sledijo jezikovnim navodilom vizije in vizije.

To nauči model, kako se odzvati na ukaze ljudi, in zagotovi sprejemljivo besedilo za opise slik.

Model

Ekipa zadaj

MultiModal-GPT je ustvarila skupina raziskovalcev in inženirjev Microsoft Research Asia, ki so jo vodili Tao Gong, Chengqi Lyu in Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo in Kai Chen so vsi prispevali k študiji in razvoju modela.

Obdelava naravnega jezika, računalniški vid, in strojno učenje sta vsa področja kompetence ekipe. Imajo več člankov, objavljenih na vrhunskih konferencah in v publikacijah, ter različna odlikovanja in priznanja za svoja znanstvena prizadevanja.

Raziskave ekipe se osredotočajo na razvoj najsodobnejših modelov in pristopov, ki omogočajo bolj naravne in inteligentne interakcije med ljudmi in tehnologijo.

Multi-modal-GPT razvoj je omembe vreden dosežek na tem področju, saj je eden prvih modelov, ki združuje vizijo in jezik v enem samem okviru za večkrožno razpravo.

Prispevki ekipe k raziskavam in razvoju MultiModal-GPT imajo potencial, da pomembno vplivajo na prihodnost obdelave naravnega jezika in interakcij med človekom in strojem.

Kako uporabljati MultiModal-GPT

Za začetnike je uporaba orodja MultiModal-GPT preprosta. Preprosto pojdite na https://mmgpt.openmmlab.org.cn/ in pritisnite gumb "Naloži sliko".

Izberite slikovno datoteko za nalaganje in nato v besedilno polje vnesite besedilni poziv. Če želite ustvariti odgovor iz modela, kliknite gumb »Pošlji«, ki se prikaže pod besedilnim poljem.

Lahko eksperimentirate z različnimi fotografijami in navodili, če želite izvedeti več o zmogljivostih modela.

Vmesnik 1

Namestitev

Če želite namestiti paket MultiModal-GPT, uporabite terminalski ukaz »git clone https://github.com/open-mmlab/Multimodal-GPT.git«, da klonirate repozitorij iz GitHub. Lahko preprosto sledite tem korakom:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Druga možnost je, da uporabite conda env create -f environment.yml za vzpostavitev novega conda okolja. Predstavitev lahko po namestitvi zaženete lokalno, tako da prenesete vnaprej pripravljene uteži in jih shranite v mapo kontrolnih točk.

Predstavitev Gradio lahko nato zaženete z ukazom »python app.py«.

Potencialne pomanjkljivosti

Model MultiModal-GPT ima kljub odlični zmogljivosti še vedno pomanjkljivosti in prostor za razvoj.

Na primer, pri obravnavanju zapletenih ali dvoumnih vizualnih vnosov model morda ne bo vedno mogel prepoznati in razumeti konteksta vnosa. To lahko povzroči netočne napovedi ali reakcije modela.

Poleg tega, zlasti če je vnos zapleten ali odprt, model morda ne bo vedno povzročil najboljše reakcije ali rezultata. Na odgovor modela je na primer morda vplivalo, kako podobne so bile videti platnice obeh knjig v primeru napačne identifikacije naslovnice knjige.

zaključek

Na splošno predstavlja model MultiModal-GPT velik korak naprej pri obdelavi naravnega jezika in strojnem učenju. In zelo razburljivo ga je uporabljati in eksperimentirati z njim. Torej, poskusite tudi vi!

Vendar pa ima omejitve, tako kot vsi modeli, in zahteva dodatne izboljšave in izboljšave za doseganje največje zmogljivosti v različnih aplikacijah in domenah.