MultiModal-GPT: Nová hranice v integraci jazyka a vidění

Přáli jste si někdy, abyste mohli konverzovat s AI, která rozumí mluveným i vizuálním datům? Paradigma MultiModal-GPT kombinuje zpracování jazyka s vizuálním porozuměním.

Nabízí možnost přesné a diverzifikované interakce člověk-počítač. Multimodální-GPT může poskytovat popisné titulky, počítat jednotlivé položky a odpovídat na obecné dotazy uživatelů.

Ale jak to dělá? A co můžete dělat s MultiModal-GPT?

Vezměme příběh na začátek a pochopíme možnosti, které nás čekají.

Se vznikem jazykových modelů, jako je GPT-4, jsou technologie zpracování přirozeného jazyka svědky revoluce. Inovace jako ChatGPT již byly začleněny do našich životů.

A zdá se, že stále přicházejí!

GPT-4 a jeho omezení

GPT-4 prokázal úžasné schopnosti v multimodálních konverzacích s lidmi. Studie se snažily tento výkon duplikovat, ale kvůli potenciálně vysokému počtu obrazových tokenů může být včetně modelů s přesnými vizuálními informacemi výpočetně nákladné.

Stávající modely také nezahrnují ladění jazykové výuky do své studie, což omezuje jejich schopnost účastnit se víceotáčkových konverzací mezi obrázky a textem.

Vychází z rámce Flamingo

Byl vyvinut nový model nazvaný MultiModal-GPT, který umožňuje komunikaci s lidmi pomocí jazykových i vizuálních podnětů.

Vývojáři použili program nazvaný rám Flamingo, který byl dříve trénován k porozumění textu i vizuálu, aby to bylo možné.

Rámec Flamingo

Flamingo však potřeboval nějaké změny, protože nemohl mít rozšířené dialogy, které by zahrnovaly text a vizuální prvky.

Aktualizovaný model MultiModal-GPT dokáže shromažďovat data z obrázků a míchat je s jazykem pro pochopení a provádění lidských příkazů.

Multimodální-GPT

MultiModal-GPT je typ modelu umělé inteligence, který může sledovat různé lidské dotazy, jako je popis vizuálů, počítání položek a odpovídání na otázky. Rozumí a řídí se příkazy pomocí kombinace vizuálních a verbálních dat.

Výzkumníci trénovali model pomocí vizuálních i pouze jazykových dat, aby zvýšili schopnost MultiModal-GPT konverzovat s lidmi. Navíc to způsobilo znatelné zlepšení ve způsobu, jakým byl jeho diskurz proveden. To také vedlo ke znatelnému zlepšení výkonu konverzace.

Zjistili, že vysoce kvalitní trénovací data jsou kritická pro dobrý výkon konverzace, protože malá datová sada s krátkými odpověďmi může modelu umožnit vytvářet kratší odpovědi na jakýkoli příkaz.

Co můžete dělat s MultiModal-GPT?

Zapojení do konverzací

Stejně jako u jazykových modelů, které se objevily dříve, je jednou z primárních charakteristik MultiModal-GPT jeho schopnost zapojit se do diskuzí v přirozeném jazyce. To znamená, že spotřebitelé se mohou s modelem zapojit stejně jako se skutečnou osobou.

Například MultiModal-GPT může zákazníkům poskytnout podrobný recept na výrobu nudlí nebo doporučit možné restaurace, kde se mohou najíst. Model je také schopen reagovat na obecné otázky o záměrech uživatelů cest.

Nudle

Rozpoznávání objektů

MultiModal-GPT dokáže rozpoznat věci na fotkách a reagovat na dotazy k nim. Model může například rozpoznat Freddieho Mercuryho na obrázku a reagovat na dotazy týkající se něj.

Dokáže také spočítat počet jedinců a vysvětlit, co na obrázku dělají. Tato kapacita identifikace objektů má uplatnění v různých oblastech, včetně elektronického obchodu, zdravotnictví a bezpečnosti.

Příklad

MultiModal-GPT také dokáže rozpoznat text uvnitř digitálních obrázků. To znamená, že model může číst text na fotografiích a extrahovat užitečná data. Může například detekovat postavy na obrázku a identifikovat autora knihy.

Je to nesmírně užitečný nástroj pro správa dokumentů, vkládání dat a analýza obsahu.

Gandalf

Uvažování a generování znalostí

Multimodální GPT může uvažovat a vytvářet znalosti o světě. To znamená, že může poskytnout úplné vysvětlení fotografií a dokonce jim říci, v jakém ročním období byl snímek pořízen.

Tato dovednost je užitečná v různých oborech, včetně monitorování životního prostředí, zemědělství a meteorologie. Model může navíc generovat kreativní věci, jako je poezie, příběhy a písně, což z něj činí vynikající nástroj pro kreativní úkoly.

Vnitřní fungování MultiModal-GPT

Šablona pro jednotné pokyny

Tým představuje jednotnou šablonu pro integraci unimodálních lingvistických dat a multimodálních dat vidění a jazyka, aby bylo možné správně trénovat model MultiModal-GPT synergickým způsobem.

Tato kombinovaná strategie se pokouší zlepšit výkon modelu v různých úkolech využitím komplementárních schopností obou datových modalit a podporou hlubšího pochopení základních myšlenek.

Datové sady Dolly 15k a Alpaca GPT4 používá tým k měření schopností sledovat pouze jazykové instrukce. Tyto datové sady fungují jako promptní šablona pro strukturování vstupu datové sady, aby byl zaručen konzistentní formát podle pokynů.

Přehled datové sady Dolly 15k

Obrázek: Přehled datové sady Doly 15k

Jak model funguje?

Model MultiModal-GPT tvoří tři klíčové komponenty: dekodér jazyka, převzorkovač vnímače a kodér vidění. Obraz je zachycen kodérem vidění, který pak generuje soubor charakteristik, které jej charakterizují.

Jazykový dekodér využívá informace z kodéru vidění k vytvoření textu, který popisuje obraz pomocí převzorkovače vnímače.

Složkou modelu, která rozumí jazyku a vytváří text, je jazykový dekodér. Aby bylo možné predikovat následující slovo ve frázi, je model trénován pomocí dat pouze pro jazyk a podle instrukcí jazyka a jazyka.

To učí model, jak reagovat na příkazy od lidí, a poskytuje přijatelný text pro popis obrázků.

Model

Tým pozadu

MultiModal-GPT byl vytvořen týmem výzkumníků a inženýrů společnosti Microsoft Research Asia vedených Tao Gongem, Chengqi Lyu a Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo a Kai Chen všichni přispěli ke studiu a vývoji modelu.

zpracování přirozeného jazyka, počítačového viděnía strojové učení jsou všechny oblasti kompetence týmu. Mají několik článků publikovaných na špičkových konferencích a publikacích, stejně jako různá ocenění a uznání za jejich vědecké úsilí.

Výzkum týmu se zaměřuje na vývoj špičkových modelů a přístupů umožňujících přirozenější a inteligentnější interakce mezi lidmi a technologiemi.

Vývoj multimodálních GPT je pozoruhodným úspěchem v této oblasti, protože jde o jeden z prvních modelů, který kombinuje vizi a jazyk v jediném rámci pro vícekolovou diskusi.

Příspěvky týmu k výzkumu a vývoji MultiModal-GPT mají potenciál mít podstatný vliv na budoucnost zpracování přirozeného jazyka a interakce člověk-stroj.

Jak používat MultiModal-GPT

Pro začátečníky je použití nástroje MultiModal-GPT jednoduché. Jednoduše přejděte na https://mmgpt.openmmlab.org.cn/ a stiskněte tlačítko „Nahrát obrázek“.

Vyberte soubor obrázku, který chcete nahrát, a poté zadejte textovou výzvu do textového pole. Chcete-li vytvořit odpověď z modelu, klikněte na tlačítko „Odeslat“, které se objeví pod textovým polem.

Můžete experimentovat s různými fotografiemi a pokyny, abyste se dozvěděli více o schopnostech modelu.

Rozhraní 1

Instalace

Chcete-li nainstalovat balíček MultiModal-GPT, použijte příkaz terminálu „git clone https://github.com/open-mmlab/Multimodal-GPT.git“ ke klonování úložiště z GitHubu. Můžete jednoduše postupovat podle těchto kroků:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Případně použijte conda env create -f environment.yml vytvořit nové prostředí conda. Demo můžete spustit lokálně po jeho instalaci stažením předem natrénovaných závaží a jejich uložením do složky kontrolních bodů.

Gradio demo lze poté spustit spuštěním příkazu „python app.py“.

Možné nevýhody

Model MultiModal-GPT má i přes vynikající výkon stále chyby a prostor pro vývoj.

Například, když se zabýváme komplikovanými nebo nejednoznačnými vizuálními vstupy, model nemusí být vždy schopen rozpoznat a pochopit kontext vstupu. To může mít za následek nepřesné předpovědi nebo reakce modelu.

Navíc, zvláště když je vstup komplikovaný nebo otevřený, model nemusí vždy poskytnout nejlepší reakci nebo výsledek. Odpověď modelky mohla být například ovlivněna tím, jak podobně vypadaly obálky obou knih v případě nesprávné identifikace obálky knihy.

Proč investovat do čističky vzduchu?

Celkově model MultiModal-GPT představuje velký krok vpřed ve zpracování přirozeného jazyka a strojovém učení. A je velmi vzrušující jej používat a experimentovat s ním. Takže byste to měli také zkusit!

Má však své limity, stejně jako všechny modely, a vyžaduje další dolaďování a vylepšení pro dosažení maximálního výkonu v různých aplikacích a doménách.