MultiModal-GPT: Nová hranica v integrácii jazyka a videnia

Priali ste si niekedy, aby ste mohli konverzovať s AI, ktorá porozumie hovoreným aj vizuálnym údajom? Paradigma MultiModal-GPT kombinuje spracovanie jazyka s vizuálnym porozumením.

Ponúka možnosť presnej a diverzifikovanej interakcie človek-počítač. MultiModal-GPT môže poskytnúť popisné titulky, počítať jednotlivé položky a odpovedať na všeobecné otázky používateľov.

Ale, ako to robí? A čo môžete robiť s MultiModal-GPT?

Prenesme príbeh na začiatok a pochopíme možnosti, ktoré sú pred nami.

So vznikom jazykových modelov, ako je GPT-4, sú technológie spracovania prirodzeného jazyka svedkami revolúcie. Inovácie ako ChatGPT už boli začlenené do našich životov.

A zdá sa, že stále prichádzajú!

GPT-4 a jeho obmedzenia

GPT-4 preukázal úžasnú odbornosť v multimodálnych konverzáciách s ľuďmi. Štúdie vynaložili úsilie na zdvojenie tohto výkonu, ale kvôli potenciálne vysokému počtu obrázkových tokenov môže byť vrátane modelov s presnými vizuálnymi informáciami výpočtovo nákladné.

Existujúce modely tiež nezahŕňajú ladenie jazykovej výučby vo svojej štúdii, čo obmedzuje ich schopnosť zúčastňovať sa na nulových záberoch viacotáčkových konverzácií medzi obrázkami a textom.

Vychádza z rámca Flamingo

Bol vyvinutý nový model s názvom MultiModal-GPT, ktorý umožňuje komunikáciu s ľuďmi pomocou jazykových aj vizuálnych podnetov.

Vývojári použili program s názvom rám Flamingo, ktorý bol predtým vyškolený na porozumenie textu aj vizuálu, aby to bolo možné.

Rámec Flamingo

Flamingo však potreboval nejaké zmeny, pretože nemohol mať rozšírené dialógy, ktoré by zahŕňali text a vizuály.

Aktualizovaný model MultiModal-GPT dokáže zhromažďovať údaje z obrázkov a miešať ich s jazykom, aby pochopil a vykonal ľudské príkazy.

MultiModal-GPT

MultiModal-GPT je typ modelu AI, ktorý dokáže sledovať rôzne ľudské otázky, ako je popis vizuálov, počítanie položiek a odpovedanie na otázky. Rozumie a dodržiava príkazy pomocou kombinácie vizuálnych a verbálnych údajov.

Výskumníci trénovali model pomocou vizuálnych aj iba jazykových údajov, aby zvýšili schopnosť MultiModal-GPT konverzovať s ľuďmi. Okrem toho to spôsobilo výrazné zlepšenie v spôsobe, akým prebiehal jeho prejav. To tiež viedlo k výraznému zlepšeniu výkonu konverzácie.

Zistili, že mať vysokokvalitné tréningové údaje sú rozhodujúce pre dobrý výkon konverzácie, pretože malý súbor údajov s krátkymi odpoveďami môže modelu umožniť vytvárať kratšie reakcie na akýkoľvek príkaz.

Čo môžete robiť s MultiModal-GPT?

Zapájanie sa do konverzácií

Rovnako ako jazykové modely, ktoré boli predtým, jednou z hlavných charakteristík MultiModal-GPT je jeho schopnosť zapojiť sa do diskusií v prirodzenom jazyku. To znamená, že spotrebitelia sa môžu s modelom spojiť rovnako ako so skutočnou osobou.

Napríklad MultiModal-GPT môže zákazníkom poskytnúť podrobný recept na výrobu rezancov alebo odporučiť možné reštaurácie na stolovanie. Model je tiež schopný odpovedať na všeobecné otázky o zámeroch používateľov na cesty.

rezance

Rozpoznávanie predmetov

MultiModal-GPT dokáže rozpoznať veci na fotografiách a odpovedať na otázky o nich. Model napríklad dokáže rozpoznať Freddieho Mercuryho na obrázku a odpovedať na otázky o ňom.

Môže tiež spočítať počet jednotlivcov a vysvetliť, čo robia na obrázku. Táto kapacita identifikácie objektov má uplatnenie v rôznych oblastiach vrátane elektronického obchodu, zdravotníctva a bezpečnosti.

Príklad

MultiModal-GPT dokáže rozpoznať aj text v digitálnych obrázkoch. To znamená, že model môže čítať text na fotografiách a extrahovať užitočné údaje. Môže napríklad odhaliť postavy na obrázku a identifikovať autora knihy.

Je to mimoriadne užitočný nástroj pre správa dokumentov, zadávanie údajov a analýza obsahu.

Gandalf

Uvažovanie a generovanie vedomostí

Multimodálna značka GPT môže uvažovať a vytvárať poznatky o svete. To znamená, že môže poskytnúť úplné vysvetlenia fotografií a dokonca im povedať, v akom ročnom období bol obrázok nasnímaný.

Táto zručnosť je užitočná v rôznych disciplínach vrátane monitorovania životného prostredia, poľnohospodárstva a meteorológie. Model môže navyše generovať kreatívne veci, ako sú poézia, rozprávky a piesne, čo z neho robí vynikajúci nástroj pre kreatívne úlohy.

Vnútorné fungovanie MultiModal-GPT

Šablóna pre jednotné pokyny

Tím predstavuje jedinú šablónu na integráciu unimodálnych lingvistických údajov a multimodálnych údajov o vízii a jazyku, aby sa správne trénoval model MultiModal-GPT synergickým spôsobom.

Táto kombinovaná stratégia sa pokúša zlepšiť výkon modelu v rámci rôznych úloh využívaním doplnkových možností oboch dátových modalít a podporou hlbšieho pochopenia základných myšlienok.

Súbory údajov Dolly 15k a Alpaca GPT4 používa tím na meranie schopností riadiť sa iba jazykovými pokynmi. Tieto množiny údajov fungujú ako vzorová šablóna na štruktúrovanie vstupu množiny údajov, aby sa zaručil konzistentný formát podľa pokynov.

Prehľad súboru údajov Dolly 15k

Obrázok: Prehľad súboru údajov Doly 15k

Ako model funguje?

Tri kľúčové komponenty tvoria model MultiModal-GPT: dekodér jazyka, prevzorkovač vnímača a kódovač videnia. Obraz je nasnímaný kodérom videnia, ktorý potom generuje súbor charakteristík, ktoré ho charakterizujú.

Jazykový dekodér využíva informácie z kódovača zraku na vytvorenie textu, ktorý popisuje obraz pomocou prevzorkovacieho zariadenia.

Komponentom modelu, ktorý rozumie jazyku a vytvára text, je jazykový dekodér. Aby bolo možné predpovedať nasledujúce slovo vo fráze, model sa trénuje s použitím údajov iba pre jazyk a pomocou údajov vyplývajúcich z jazykových pokynov.

Toto učí model, ako reagovať na príkazy od ľudí, a poskytuje prijateľný text pre popis obrázkov.

Modelka

Tím pozadu

MultiModal-GPT vytvoril tím výskumníkov a inžinierov spoločnosti Microsoft Research Asia pod vedením Tao Gonga, Chengqi Lyu a Shilong Zhanga. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo a Kai Chen všetci prispeli k štúdiu a vývoju modelu.

spracovanie prirodzeného jazyka, počítačová víziaa strojové učenie sú všetky oblasti kompetencie tímu. Majú niekoľko článkov publikovaných na špičkových konferenciách a publikáciách, ako aj rôzne vyznamenania a uznania za ich vedecké úsilie.

Výskum tímu sa zameriava na vývoj špičkových modelov a prístupov, ktoré umožnia prirodzenejšie a inteligentnejšie interakcie medzi ľuďmi a technológiou.

Rozvoj multimodálnych značiek GPT je pozoruhodným úspechom v tejto oblasti, pretože ide o jeden z prvých modelov, ktorý kombinuje víziu a jazyk do jedného rámca pre viackolovú diskusiu.

Príspevky tímu k výskumu a vývoju MultiModal-GPT majú potenciál mať podstatný vplyv na budúcnosť spracovania prirodzeného jazyka a interakcie medzi človekom a strojom.

Ako používať MultiModal-GPT

Pre začiatočníkov je používanie nástroja MultiModal-GPT jednoduché. Jednoducho prejdite na https://mmgpt.openmmlab.org.cn/ a stlačte tlačidlo „Nahrať obrázok“.

Vyberte súbor obrázka, ktorý chcete odovzdať, a potom do textového poľa zadajte textovú výzvu. Ak chcete vytvoriť odpoveď z modelu, kliknite na tlačidlo „Odoslať“, ktoré sa zobrazí pod textovým poľom.

Môžete experimentovať s rôznymi fotografiami a pokynmi, aby ste sa dozvedeli viac o schopnostiach modelu.

Rozhranie 1

Inštalácia

Ak chcete nainštalovať balík MultiModal-GPT, použite príkaz terminálu „git clone https://github.com/open-mmlab/Multimodal-GPT.git“ na klonovanie úložiska z GitHubu. Môžete jednoducho postupovať podľa týchto krokov:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Prípadne použite conda env create -f environment.yml vytvoriť nové prostredie. Demo môžete spustiť lokálne po jeho nainštalovaní stiahnutím vopred natrénovaných závaží a ich uložením do priečinka kontrolné body.

Ukážku Gradio potom možno spustiť spustením príkazu „python app.py“.

Potenciálne nevýhody

Model MultiModal-GPT má napriek výbornému výkonu stále nedostatky a priestor na vývoj.

Napríklad, keď sa zaoberáme komplikovanými alebo nejednoznačnými vizuálnymi vstupmi, model nemusí byť vždy schopný rozpoznať a pochopiť kontext vstupu. To môže viesť k nepresným predpovediam alebo reakciám modelu.

Navyše, najmä ak je vstup komplikovaný alebo otvorený, model nemusí vždy priniesť najlepšiu reakciu alebo výsledok. Odpoveď modelky mohla byť napríklad ovplyvnená tým, ako podobne vyzerali obálky oboch kníh v prípade nesprávnej identifikácie obálky knihy.

záver

Celkovo model MultiModal-GPT predstavuje veľký krok vpred v oblasti spracovania prirodzeného jazyka a strojového učenia. A je veľmi vzrušujúce ho používať a experimentovať s ním. Takže by ste to mali vyskúšať aj vy!

Má však svoje limity, rovnako ako všetky modely, a vyžaduje ďalšie dolaďovanie a vylepšenie na dosiahnutie maximálneho výkonu v rôznych aplikáciách a doménach.