MultiModal-GPT: una nova frontera en la integració del llenguatge i la visió

Alguna vegada has volgut poder conversar amb una intel·ligència artificial que entengui dades tant orals com visuals? El paradigma MultiModal-GPT combina el processament del llenguatge amb la comprensió visual.

Ofereix la possibilitat d'una interacció humana-ordinador precisa i diversificada. MultiModal-GPT pot proporcionar subtítols descriptius, comptar elements individuals i respondre a preguntes generals dels usuaris.

Però, com ho fa? I què pots fer amb MultiModal-GPT?

Portem la història al principi i entenem les possibilitats que tenim per davant.

Amb l'aparició de models de llenguatge com el GPT-4, les tecnologies de processament del llenguatge natural estan assistint a una revolució. Innovacions com ChatGPT ja s'han incorporat a les nostres vides.

I sembla que segueixen arribant!

GPT-4 i les seves limitacions

GPT-4 ha demostrat una competència sorprenent en converses multimodals amb la gent. Els estudis han fet un esforç per duplicar aquest rendiment, però a causa del nombre potencialment elevat de fitxes d'imatge, incloure models amb informació visual precisa pot ser computacionalment car.

Els models existents tampoc inclouen l'ajustament d'instruccions d'idiomes en el seu estudi, cosa que restringeix la seva capacitat de participar en converses d'imatge i text de múltiples girs de tir zero.

Construint sobre Flamingo Framework

Es va desenvolupar un nou model anomenat MultiModal-GPT per permetre la comunicació amb persones utilitzant indicis tant lingüístics com visuals.

Els desenvolupadors van utilitzar un programa anomenat marc flamenc, que prèviament es va entrenar per comprendre tant text com visuals, per fer-ho factible.

Marc Flamingo

Flamingo necessitava alguns canvis, però, ja que no podia tenir diàlegs extensos que incloguessin text i imatges.

El model MultiModal-GPT actualitzat pot recopilar dades d'imatges i barrejar-les amb el llenguatge per comprendre i executar ordres humanes.

MultiModal-GPT

MultiModal-GPT és un tipus de model d'IA que pot seguir diverses consultes humanes, com ara descriure elements visuals, comptar elements i respondre preguntes. Comprèn i segueix ordres utilitzant una barreja de dades visuals i verbals.

Els investigadors van entrenar el model utilitzant dades visuals i només en llenguatge per augmentar la capacitat de MultiModal-GPT per conversar amb la gent. A més, va provocar una millora notable en la manera de fer el seu discurs. També va provocar una millora notable en el rendiment de la conversa.

Van descobrir que tenir dades d'entrenament d'alta qualitat és fonamental per a un bon rendiment de la conversa, perquè un petit conjunt de dades amb respostes curtes pot permetre que el model creï respostes més curtes a qualsevol comanda.

Què pots fer amb MultiModal-GPT?

Participar en converses

Igual que els models lingüístics anteriors, una de les característiques principals de MultiModal-GPT és la seva capacitat per participar en debats en llenguatge natural. Això implica que els consumidors poden interactuar amb el model de la mateixa manera que ho farien amb una persona real.

Per exemple, MultiModal-GPT pot oferir als clients una recepta detallada per fer fideus o recomanar possibles restaurants per menjar fora. El model també és capaç de respondre a preguntes genèriques sobre les intencions de viatge dels usuaris.

fideus

Reconeixement d'objectes

MultiModal-GPT pot reconèixer coses a les fotos i respondre a les consultes sobre elles. Per exemple, el model pot reconèixer Freddie Mercury en una imatge i respondre a les consultes sobre ell.

També pot comptar el nombre d'individus i explicar el que estan fent en una imatge. Aquesta capacitat d'identificació d'objectes té aplicacions en diversos camps, com ara el comerç electrònic, la salut i la seguretat.

exemple

MultiModal-GPT també pot reconèixer text dins d'imatges digitals. Això implica que el model pot llegir el text de les fotos i extreure dades útils. Pot, per exemple, detectar els personatges d'una imatge i identificar l'autor d'un llibre.

És una eina molt útil per a gestió de documents, entrada de dades i anàlisi de contingut.

Gandalf

Raonament i generació de coneixement

El GPT multimodal pot raonar i produir coneixement sobre el món. Això vol dir que pot proporcionar explicacions completes de les fotografies i fins i tot dir-los en quina època es va fer la imatge.

Aquesta habilitat és útil en una varietat de disciplines, com ara la vigilància ambiental, l'agricultura i la meteorologia. El model també pot generar coses creatives com poesia, contes i cançons, el que el converteix en una eina excel·lent per a tasques creatives.

Funcionament intern de MultiModal-GPT

Plantilla per a instruccions unificades

L'equip presenta una única plantilla per a la integració de dades lingüístiques unimodals i dades multimodals de visió i llenguatge per entrenar correctament el model MultiModal-GPT d'una manera sinèrgica.

Aquesta estratègia combinada intenta millorar el rendiment del model en una varietat de tasques aprofitant les capacitats complementàries d'ambdues modalitats de dades i fomentant una comprensió més profunda de les idees subjacents.

L'equip utilitza els conjunts de dades Dolly 15k i Alpaca GPT4 per mesurar les habilitats de seguiment d'instruccions només en llengua. Aquests conjunts de dades actuen com a plantilla d'indicació per estructurar l'entrada del conjunt de dades per garantir un format coherent de seguiment d'instruccions.

Visió general del conjunt de dades Dolly 15k

Imatge: visió general del conjunt de dades Doly 15k

Com funciona el model?

Tres components clau conformen el model MultiModal-GPT: un descodificador d'idiomes, un resampler de percepció i un codificador de visió. La imatge és captada pel codificador de visió, que després genera una col·lecció de característiques que la caracteritzen.

El descodificador de llenguatge utilitza la informació del codificador de visió per crear text que descriu la imatge amb l'ajuda del resampler del perceptor.

El component del model que entén el llenguatge i produeix el text és el descodificador del llenguatge. Per predir la paraula següent en una frase, el model s'entrena utilitzant dades de seguiment de l'ensenyament de l'idioma només i la visió més.

Això ensenya al model com reaccionar a les ordres dels humans i proporciona el text acceptable per a les descripcions d'imatges.

model

Equip darrere

El MultiModal-GPT va ser creat per un equip d'investigadors i enginyers de Microsoft Research Asia liderats per Tao Gong, Chengqi Lyu i Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo i Kai Chen van contribuir a l'estudi i desenvolupament del model.

processament del llenguatge natural, visió per computadora, i l'aprenentatge automàtic són totes les àrees de competència de l'equip. Tenen diversos articles publicats en conferències i publicacions de primer nivell, així com diversos honors i reconeixements pels seus esforços científics.

La investigació de l'equip se centra en el desenvolupament de models i enfocaments d'avantguarda per permetre interaccions més naturals i intel·ligents entre els humans i la tecnologia.

El desenvolupament multimodal de GPT és un èxit destacable en el camp, ja que és un dels primers models que combina visió i llenguatge en un únic marc per a la discussió en múltiples rodones.

Les contribucions de l'equip a la investigació i desenvolupament MultiModal-GPT tenen el potencial de tenir una influència substancial en el futur del processament del llenguatge natural i les interaccions home-màquina.

Com utilitzar MultiModal-GPT

Per als principiants, utilitzar l'eina MultiModal-GPT és senzill. Simplement aneu a https://mmgpt.openmmlab.org.cn/ i premeu el botó "Pujar imatge".

Trieu el fitxer d'imatge que voleu carregar i, a continuació, escriviu la sol·licitud de text al camp de text. Per crear una resposta a partir del model, feu clic al botó "Envia", que apareixerà a sota del camp de text.

Podeu experimentar amb diferents fotos i instruccions per obtenir més informació sobre les capacitats del model.

Interfície 1

Instal · lació

Per instal·lar el paquet MultiModal-GPT, utilitzeu l'ordre del terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" per clonar el repositori des de GitHub. Simplement podeu seguir aquests passos:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternativament, utilitzar conda env create -f environment.yml per establir un nou ambient conda. Podeu executar la demostració localment després d'instal·lar-la baixant els pesos entrenats prèviament i emmagatzemant-los a la carpeta de punts de control.

La demostració de Gradio es pot iniciar executant l'ordre "python app.py".

Inconvenients potencials

El model MultiModal-GPT encara té defectes i marge de desenvolupament malgrat el seu excel·lent rendiment.

Per exemple, quan es tracta d'entrades visuals complicades o ambigües, és possible que el model no sempre sigui capaç de reconèixer i comprendre el context de l'entrada. Això pot donar lloc a prediccions o reaccions inexactes del model.

A més, sobretot quan l'entrada és complicada o oberta, és possible que el model no sempre produeixi la millor reacció o resultat. La resposta del model, per exemple, pot haver estat afectada per la semblança que tenien les cobertes dels dos llibres en el cas de la identificació incorrecta d'una portada.

Conclusió

En general, el model MultiModal-GPT representa un gran pas endavant en el processament del llenguatge natural i l'aprenentatge automàtic. I és molt emocionant utilitzar-lo i experimentar-lo. Per tant, també hauríeu de provar-ho!

No obstant això, té límits, com tots els models, i requereix perfeccionament i millora addicionals per obtenir el màxim rendiment en una varietat d'aplicacions i dominis.