MultiModal-GPT: Új határ a nyelvi és látási integrációban

Kívánta volna valaha is, hogy egy olyan mesterséges intelligencia segítségével tudjon beszélgetni, amely a szóbeli és a vizuális adatokat is felfogja? A MultiModal-GPT paradigma egyesíti a nyelvi feldolgozást a vizuális megértéssel.

Pontos és szerteágazó ember-számítógép interakció lehetőségét kínálja. MultiModal-GPT leíró feliratokat adhat, megszámolhatja az egyes elemeket, és válaszolhat az általános felhasználói kérdésekre.

De hogyan teszi ezt? És mit lehet kezdeni a MultiModal-GPT-vel?

Vigyük a történetet az elejére, és értsük meg az előttünk álló lehetőségeket.

A GPT-4-hez hasonló nyelvi modellek megjelenésével a természetes nyelvi feldolgozási technológiák forradalom tanúi. Az olyan újítások, mint a ChatGPT, már beépültek az életünkbe.

És úgy tűnik, folyamatosan jönnek!

GPT-4 és korlátai

A GPT-4 elképesztő jártasságot mutatott az emberekkel folytatott multimodális beszélgetésekben. A tanulmányok erőfeszítéseket tettek ennek a teljesítménynek a megkettőzésére, de a potenciálisan magas képi tokenek száma miatt a pontos vizuális információval rendelkező modellek számításilag költségesek lehetnek.

A meglévő modellek szintén nem tartalmazzák a nyelvi utasítások hangolását a tanulmányukban, ami korlátozza a zero-shot többfordulatos kép-szöveg beszélgetésekben való részvételi képességüket.

Flamingo keretrendszerre építve

A MultiModal-GPT néven új modellt fejlesztettek ki, amely lehetővé teszi az emberekkel folytatott kommunikációt nyelvi és vizuális jelzések használatával.

A fejlesztők az úgynevezett programot alkalmazták Flamingo keret, amelyet korábban a szöveg és a látvány megértésére is képeztek, hogy ez megvalósítható legyen.

Flamingo Framework

A Flamingónak azonban néhány változtatásra volt szüksége, mivel nem volt képes kiterjesztett párbeszédekre, amelyek szöveget és látványt tartalmaztak.

A frissített MultiModal-GPT modell képes adatokat gyűjteni képekből, és azokat nyelvvel keverni, hogy megértse és végrehajtsa az emberi parancsokat.

MultiModal-GPT

A MultiModal-GPT egy olyan típusú mesterséges intelligencia-modell, amely képes követni a különféle emberi kérdéseket, például a látványelemek leírását, az elemek számlálását és a kérdések megválaszolását. Megérti és követi a parancsokat vizuális és verbális adatok keverékével.

A kutatók a modellt vizuális és csak nyelvi adatok felhasználásával képezték ki, hogy növeljék a MultiModal-GPT képességét az emberekkel való beszélgetésre. Ezenkívül észrevehető javulást okozott a diskurzus végrehajtásában. Ez a beszélgetési teljesítményben is észrevehető javulást eredményezett.

Felfedezték, hogy a jó minőségű betanítási adatok létfontosságúak a jó beszélgetési teljesítményhez, mivel egy kis adatkészlet rövid válaszokkal lehetővé teheti, hogy a modell rövidebb válaszokat hozzon létre bármely parancsra.

Mit tehet a MultiModal-GPT-vel?

Beszélgetésekben való részvétel

A korábbi nyelvi modellekhez hasonlóan a MultiModal-GPT egyik elsődleges jellemzője, hogy képes részt venni a természetes nyelvi vitákban. Ez azt jelenti, hogy a fogyasztók ugyanúgy kapcsolatba léphetnek a modellel, mint egy valós személlyel.

Például a MultiModal-GPT részletes receptet tud adni az ügyfeleknek a tészta elkészítéséhez, vagy ajánlhat éttermeket a szabadban való étkezéshez. A modell képes válaszolni a felhasználók utazási szándékaival kapcsolatos általános kérdésekre is.

Tészta

Tárgyak felismerése

A MultiModal-GPT képes felismerni a dolgokat a fényképeken, és válaszolni tud az ezekre vonatkozó kérdésekre. Például a modell képes felismerni Freddie Mercuryt egy képen, és válaszolni a vele kapcsolatos kérdésekre.

Ezenkívül meg tudja számolni az egyének számát, és elmagyarázza, mit csinálnak egy képen. Ez az objektumazonosító kapacitás számos területen alkalmazható, beleértve az e-kereskedelmet, az egészségügyet és a biztonságot.

Példa

A MultiModal-GPT a digitális képeken belüli szöveget is képes felismerni. Ez azt jelenti, hogy a modell el tudja olvasni a fényképek szövegét, és hasznos adatokat nyer ki. Felismerheti például egy kép szereplőit, és azonosíthatja egy könyv szerzőjét.

Rendkívül hasznos eszköz a dokumentum menedzsment, adatbevitel és tartalomelemzés.

Gandalf

Érvelés és tudásgenerálás

A multimodális GPT okoskodhat és tudást állíthat elő a világról. Ez azt jelenti, hogy teljes magyarázatot tud adni a fényképekről, és még azt is meg tudja mondani, hogy a kép melyik évszakban készült.

Ez a készség számos tudományágban hasznos, beleértve a környezeti megfigyelést, a mezőgazdaságot és a meteorológiát. A modell emellett kreatív dolgokat, például költészetet, mesét és dalt is generálhat, így kiváló eszköz a kreatív feladatokhoz.

A MultiModal-GPT belső működése

Egységes utasítások sablonja

A csapat egyetlen sablont mutat be az unimodális nyelvi adatok és a multimodális látás- és nyelvi adatok integrálására a MultiModal-GPT modell megfelelő, szinergikus módon történő betanítása érdekében.

Ez a kombinált stratégia megkísérli javítani a modell teljesítményét a különböző feladatokban azáltal, hogy kihasználja mindkét adatmódszer kiegészítő képességeit, és ösztönzi a mögöttes ötletek mélyebb megértését.

A Dolly 15k és az Alpaca GPT4 adatkészleteket a csapat a csak nyelvi utasításkövetési képességek mérésére használja. Ezek az adatkészletek azonnali sablonként működnek az adatkészlet-bevitel strukturálásához, hogy garantálják a következetes utasításkövető formátumot.

Dolly 15k adatkészlet áttekintése

Kép: A Doly 15k adatkészlet áttekintése

Hogyan működik a modell?

Három kulcselem alkotja a MultiModal-GPT modellt: egy nyelvi dekóder, egy észlelő újramintavevő és egy látáskódoló. A képet a látáskódoló veszi fel, amely azután létrehozza a rá jellemző jellemzők gyűjteményét.

A nyelvi dekóder a látáskódolóból származó információk alapján szöveget hoz létre, amely leírja a képet az észlelő újramintavevő segítségével.

A modell nyelvet megértő és szöveget előállító összetevője a nyelvi dekóder. A következő szó előrejelzéséhez egy kifejezésben a modellt a csak nyelvi és a látás plusz nyelvi utasításkövető adatok felhasználásával képezik.

Ez megtanítja a modellt, hogyan reagáljon az emberektől érkező parancsokra, és megfelelő szöveget biztosít a képleírásokhoz.

Modell

Csapat mögött

A MultiModal-GPT-t a Microsoft Research Asia kutatóiból és mérnökeiből álló csapat hozta létre Tao Gong, Chengqi Lyu és Shilong Zhang vezetésével. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo és Kai Chen mind hozzájárultak a modell tanulmányozásához és fejlesztéséhez.

Természetes nyelvi feldolgozás, számítógépes látás, és a gépi tanulás mind kompetenciaterületek a csapat számára. Számos cikkük jelent meg a legmagasabb szintű konferenciákon és publikációkban, valamint különféle kitüntetéseket és elismeréseket kaptak tudományos erőfeszítéseikért.

A csapat kutatása olyan élvonalbeli modellek és megközelítések kifejlesztésére összpontosít, amelyek lehetővé teszik az emberek és a technológia közötti természetesebb és intelligensebb interakciókat.

A multimodális-GPT fejlesztés figyelemre méltó teljesítmény ezen a területen, mivel ez az egyik első olyan modell, amely a látásmódot és a nyelvet egyetlen keretben ötvözi a többfordulós vitához.

A csapat hozzájárulása a MultiModal-GPT kutatáshoz és fejlesztéshez jelentős hatással lehet a természetes nyelvi feldolgozás és az ember-gép interakciók jövőjére.

A MultiModal-GPT használata

Kezdők számára a MultiModal-GPT eszköz használata egyszerű. Egyszerűen menj ide https://mmgpt.openmmlab.org.cn/ és nyomja meg a „Kép feltöltése” gombot.

Válassza ki a feltölteni kívánt képfájlt, majd írja be a szöveges promptot a szövegmezőbe. A modellből válasz létrehozásához kattintson a „Küldés” gombra, amely a szövegmező alatt jelenik meg.

Kísérletezhet különböző fotókkal és utasításokkal, hogy többet megtudjon a modell képességeiről.

1. interfész

telepítése

A MultiModal-GPT csomag telepítéséhez használja a „git clone https://github.com/open-mmlab/Multimodal-GPT.git” terminálparancsot a lerakat klónozásához a GitHubból. Egyszerűen kövesse az alábbi lépéseket:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternatív megoldásként használja conda env create -f environment.yml új conda környezet kialakítására. A demót a telepítés után helyileg is futtathatja, ha letölti az előre betanított súlyokat, és tárolja azokat az ellenőrzőpontok mappájában.

A Gradio demó ezután elindítható a „python app.py” parancs futtatásával.

Lehetséges hátrányok

A MultiModal-GPT modellnek a kiváló teljesítménye ellenére is vannak hibái és fejlesztési lehetőségei.

Például bonyolult vagy kétértelmű vizuális bemenetek kezelésekor a modell nem mindig képes felismerni és megérteni a bemenet kontextusát. Ez pontatlan előrejelzéseket vagy reakciókat eredményezhet a modellből.

Ezenkívül, különösen, ha a bemenet bonyolult vagy nyílt végű, előfordulhat, hogy a modell nem mindig a legjobb reakciót vagy eredményt adja. A modell válaszát például az is befolyásolhatta, hogy a két könyv borítója mennyire hasonlít egy könyvborító helytelen azonosítása esetén.

Következtetés

Összességében a MultiModal-GPT modell nagy előrelépést jelent a természetes nyelvi feldolgozás és a gépi tanulás terén. És nagyon izgalmas használni és kísérletezni vele. Szóval, neked is ki kell próbálnod!

Ennek azonban, mint minden modellnek, vannak korlátai, és további finomítást és fejlesztést igényel a maximális teljesítmény elérése érdekében számos alkalmazásban és tartományban.