MultiModal-GPT: Uusi raja kielten ja näkemysten integroinnissa

Oletko koskaan toivonut voivasi keskustella tekoälyn kanssa, joka ymmärtää sekä puhuttua että visuaalista dataa? MultiModal-GPT-paradigma yhdistää kielenkäsittelyn visuaaliseen ymmärtämiseen.

Se tarjoaa mahdollisuuden tarkkaan ja monipuoliseen ihmisen ja tietokoneen vuorovaikutukseen. MultiModal-GPT voi tarjota kuvaavia kuvatekstejä, laskea yksittäisiä kohteita ja vastata yleisiin käyttäjien kysymyksiin.

Mutta miten se tekee sen? Ja mitä voit tehdä MultiModal-GPT:llä?

Viedään tarina alkuun ja ymmärretään edessämme olevat mahdollisuudet.

GPT-4:n kaltaisten kielimallien ilmaantumisen myötä luonnolliset kielenkäsittelytekniikat ovat todistamassa vallankumousta. ChatGPT:n kaltaiset innovaatiot on jo sisällytetty elämäämme.

Ja niitä näyttää tulevan jatkuvasti!

GPT-4 ja sen rajoitukset

GPT-4 on osoittanut hämmästyttävää taitoa multimodaalisissa keskusteluissa ihmisten kanssa. Tutkimukset ovat pyrkineet kopioimaan tämän suorituskyvyn, mutta mahdollisen suuren kuvatunnisteiden määrän vuoksi tarkan visuaalisen tiedon mallit voivat olla laskennallisesti kalliita.

Nykyiset mallit eivät myöskään sisällä tutkimuksessaan kielenopetuksen viritystä, mikä rajoittaa heidän mahdollisuuksiaan osallistua nollakuvan monikäännöskuva-tekstikeskusteluihin.

Rakentaminen Flamingo-kehyksen päälle

Uusi malli, nimeltään MultiModal-GPT kehitettiin mahdollistamaan kommunikointi ihmisten kanssa sekä kielellisten että visuaalisten vihjeiden avulla.

Kehittäjät käyttivät ohjelmaa nimeltä Flamingo-kehys, joka on aiemmin koulutettu ymmärtämään sekä tekstiä että visuaalista sisältöä, jotta tämä olisi mahdollista.

Flamingo Framework

Flamingo tarvitsi kuitenkin joitain muutoksia, koska se ei pystynyt pitämään laajennettuja dialogeja, jotka sisälsivät tekstiä ja visuaalista sisältöä.

Päivitetty MultiModal-GPT-malli voi kerätä dataa kuvista ja sekoittaa sen kieleen ymmärtääkseen ja suorittaakseen ihmisen käskyjä.

MultiModal-GPT

MultiModal-GPT on eräänlainen tekoälymalli, joka voi seurata erilaisia ihmisten kyselyjä, kuten kuvailla visuaaleja, laskea kohteita ja vastata kysymyksiin. Se ymmärtää ja seuraa käskyjä käyttämällä visuaalista ja sanallista dataa.

Tutkijat kouluttivat mallia käyttämällä sekä visuaalista että pelkkää kielitietoa lisätäkseen MultiModal-GPT:n kykyä keskustella ihmisten kanssa. Lisäksi se aiheutti huomattavan parannuksen sen diskurssin suorittamistapassa. Se myös paransi huomattavasti sen keskustelun suorituskykyä.

He havaitsivat, että korkealaatuisten harjoitustietojen saaminen on kriittistä hyvän keskustelun suorituskyvyn kannalta, koska pieni tietojoukko lyhyillä vastauksilla voi mahdollistaa mallin luomisen lyhyempiä vastauksia mihin tahansa komentoon.

Mitä voit tehdä MultiModal-GPT:llä?

Keskusteluihin osallistuminen

Kuten aikaisemmat kielimallit, yksi MultiModal-GPT:n pääominaisuuksista on sen kyky osallistua luonnollisen kielen keskusteluihin. Tämä tarkoittaa, että kuluttajat voivat olla tekemisissä mallin kanssa aivan kuten he tekisivät oikean henkilön.

Esimerkiksi MultiModal-GPT voi antaa asiakkaille yksityiskohtaisen reseptin nuudeleiden valmistukseen tai suositella mahdollisia ravintoloita ulkona syömiseen. Malli pystyy myös vastaamaan yleisiin kysymyksiin käyttäjien matka-aikeista.

Nuudelit

Esineiden tunnistaminen

MultiModal-GPT voi tunnistaa asioita kuvista ja vastata niitä koskeviin tiedusteluihin. Malli voi esimerkiksi tunnistaa Freddie Mercuryn kuvasta ja vastata häntä koskeviin kyselyihin.

Se voi myös laskea yksilöiden määrän ja selittää, mitä he tekevät kuvassa. Tällä objektintunnistuskapasiteetilla on sovelluksia useilla aloilla, mukaan lukien sähköinen kaupankäynti, terveydenhuolto ja turvallisuus.

esimerkki

MultiModal-GPT tunnistaa myös tekstin digitaalisten kuvien sisällä. Tämä tarkoittaa, että malli osaa lukea valokuvien tekstiä ja poimia hyödyllistä tietoa. Se voi esimerkiksi havaita kuvan hahmot ja tunnistaa kirjan tekijän.

Se on erittäin hyödyllinen työkalu asiakirjojen hallinta, tietojen syöttäminen ja sisältöanalyysi.

Gandalf

Päättely ja tiedon tuottaminen

Multimodaalinen GPT voi järkeillä ja tuottaa tietoa maailmasta. Tämä tarkoittaa, että se voi tarjota täydelliset selitykset valokuvista ja jopa kertoa heille, mihin vuodenaikaan kuva on otettu.

Tämä taito on hyödyllinen useilla aloilla, kuten ympäristön seurannassa, maataloudessa ja meteorologiassa. Malli voi lisäksi tuottaa luovia juttuja, kuten runoutta, tarinoita ja lauluja, mikä tekee siitä erinomaisen työkalun luoviin tehtäviin.

MultiModal-GPT:n sisäinen toiminta

Malli yhtenäisille ohjeille

Tiimi esittelee yhden mallin unimodaalisen kielidatan ja multimodaalisen visio- ja kielidatan integroimiseksi MultiModal-GPT-mallin asianmukaisen kouluttamiseen synergistisellä tavalla.

Tämä yhdistetty strategia yrittää parantaa mallin suorituskykyä useissa eri tehtävissä hyödyntämällä molempien tietomenetelmien toisiaan täydentäviä ominaisuuksia ja kannustamalla ymmärtämään taustalla olevia ideoita.

Tiimi käyttää Dolly 15k- ja Alpaca GPT4 -tietosarjoja mittaamaan pelkän kielen ohjeen seuraamista. Nämä tietojoukot toimivat kehotteena mallina tietojoukkosyötteen strukturoimiseksi, jotta taataan johdonmukainen ohjeiden mukainen muoto.

Dolly 15k -tietojoukon yleiskatsaus

Kuva: Doly 15k -tietojoukon yleiskatsaus

Miten malli toimii?

Kolme avainkomponenttia muodostavat MultiModal-GPT-mallin: kielidekooderi, percever-resampleri ja visiokooderi. Näönkooderi ottaa kuvan, joka sitten luo kokoelman sitä kuvaavia ominaisuuksia.

Kielidekooderi käyttää visioenkooderin tietoja luodakseen tekstiä, joka kuvaa kuvaa percever resamplerin avulla.

Mallin osa, joka ymmärtää kieltä ja tuottaa tekstin, on kielidekooderi. Ennakoidakseen seuraavan sanan lauseessa mallia opetetaan käyttämällä sekä vain kieli- että vision-plus -kieliohjeita seuraavia tietoja.

Tämä opettaa mallille kuinka reagoida ihmisten käskyihin ja tarjoaa hyväksyttävän tekstin kuvien kuvauksille.

Malli

Joukkue Takana

MultiModal-GPT:n loi Microsoft Research Asian tutkijoista ja insinööreistä koostuva ryhmä, jota johtivat Tao Gong, Chengqi Lyu ja Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo ja Kai Chen osallistuivat kaikki mallin tutkimiseen ja kehittämiseen.

Luonnollisen kielen käsittely, tietokoneen visio, ja koneoppiminen ovat kaikki tiimin osaamisalueita. Heillä on useita artikkeleita, jotka on julkaistu huipputason konferensseissa ja julkaisuissa, sekä erilaisia kunnianosoituksia ja tunnustuksia tieteellisestä työstään.

Ryhmän tutkimus keskittyy uusimpien mallien ja lähestymistapojen kehittämiseen, jotka mahdollistavat luonnollisemman ja älykkäämmän vuorovaikutuksen ihmisen ja teknologian välillä.

Multimodaali-GPT-kehitys on alan huomionarvoinen saavutus, sillä se on yksi ensimmäisistä malleista, joka yhdistää näkemyksen ja kielen yhdeksi viitekehykseksi monikierroksiselle keskustelulle.

Ryhmän panoksella MultiModal-GPT-tutkimukseen ja -kehitykseen voi olla merkittävä vaikutus luonnollisen kielen käsittelyn ja ihmisen ja koneen vuorovaikutuksen tulevaisuuteen.

Kuinka käyttää MultiModal-GPT:tä

Aloittelijoille MultiModal-GPT-työkalun käyttö on helppoa. Mene vain osoitteeseen https://mmgpt.openmmlab.org.cn/ ja paina "Lataa kuva" -painiketta.

Valitse ladattava kuvatiedosto ja kirjoita sitten tekstikehote tekstikenttään. Voit luoda vastauksen mallista napsauttamalla "Lähetä" -painiketta, joka tulee näkyviin tekstikentän alle.

Voit kokeilla erilaisia kuvia ja ohjeita saadaksesi lisätietoja mallin ominaisuuksista.

Liitäntä 1

asentaminen

Asenna MultiModal-GPT-paketti käyttämällä päätekomentoa "git clone https://github.com/open-mmlab/Multimodal-GPT.git" arkisto kloonaamiseksi GitHubista. Voit yksinkertaisesti noudattaa näitä ohjeita:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Vaihtoehtoisesti käytä conda env create -f environment.yml uuden conda-ympäristön perustamiseen. Voit suorittaa demon paikallisesti asennuksen jälkeen lataamalla esiopetetut painot ja tallentamalla ne tarkistuspisteiden kansioon.

Gradio-demo voidaan sitten käynnistää suorittamalla komento "python app.py".

Mahdolliset haitat

MultiModal-GPT-mallissa on edelleen puutteita ja kehittämisen varaa erinomaisesta suorituskyvystään huolimatta.

Esimerkiksi kun käsitellään monimutkaisia tai moniselitteisiä visuaalisia syötteitä, malli ei välttämättä aina pysty tunnistamaan ja ymmärtämään syötteen kontekstia. Tämä voi johtaa epätarkkoihin ennusteisiin tai reaktioihin mallista.

Lisäksi varsinkin kun syöttö on monimutkaista tai avointa, malli ei välttämättä aina tuota parasta reaktiota tai tulosta. Mallin vastaukseen saattoi vaikuttaa esimerkiksi se, kuinka samanlaisilta kirjan kannet näyttivät, jos kirjan kannen tunniste oli virheellinen.

Yhteenveto

Kaiken kaikkiaan MultiModal-GPT-malli on suuri askel eteenpäin luonnollisen kielen käsittelyssä ja koneoppimisessa. Ja on erittäin jännittävää käyttää sitä ja kokeilla sitä. Kannattaa siis kokeilla sitäkin!

Sillä on kuitenkin rajoituksia, kuten kaikilla malleilla, ja se vaatii lisäjalostusta ja parannuksia maksimaalisen suorituskyvyn saavuttamiseksi useissa sovelluksissa ja toimialueissa.