MultiModal-GPT: A New Frontier in Language and Vision Integration

Har du nogensinde ønsket, at du kunne tale med en AI, der forstår både talte og visuelle data? MultiModal-GPT paradigmet kombinerer sprogbehandling med visuel forståelse.

Det giver mulighed for nøjagtig og diversificeret menneske-computer-interaktion. MultiModal-GPT kan give beskrivende billedtekster, tælle individuelle elementer og svare på generelle brugerspørgsmål.

Men hvordan gør den det? Og hvad kan du gøre med MultiModal-GPT?

Lad os tage historien til begyndelsen og forstå de muligheder, der ligger foran os.

Med fremkomsten af sprogmodeller som GPT-4 er naturlige sprogbehandlingsteknologier vidne til en revolution. Innovationer som ChatGPT er allerede blevet indarbejdet i vores liv.

Og de ser ud til at blive ved med at komme!

GPT-4 og dens begrænsninger

GPT-4 har vist fantastisk dygtighed i multimodale samtaler med mennesker. Undersøgelser har gjort en indsats for at duplikere denne ydeevne, men på grund af det potentielt høje antal billedtokens kan inklusive modeller med præcis visuel information være beregningsmæssigt dyre.

Eksisterende modeller inkluderer heller ikke tuning af sprogundervisning i deres undersøgelse, hvilket begrænser deres evne til at deltage i zero-shot multiturn billed-tekst samtaler.

Bygger på Flamingo Framework

En ny model kaldet MultiModal-GPT blev udviklet for at muliggøre kommunikation med mennesker ved hjælp af både sproglige og visuelle signaler.

Udviklerne brugte et program kaldet Flamingo ramme, som tidligere var trænet til at forstå både tekst og billeder, for at gøre dette muligt.

Flamingo rammeværk

Flamingo havde dog brug for nogle ændringer, da den ikke var i stand til at have udvidede dialoger, der inkluderede tekst og billeder.

Den opdaterede MultiModal-GPT-model kan indsamle data fra billeder og blande dem med sprog for at forstå og udføre menneskelige kommandoer.

MultiModal-GPT

MultiModal-GPT er en type AI-model, der kan følge forskellige menneskelige forespørgsler såsom at beskrive visuals, tælle genstande og besvare spørgsmål. Den forstår og følger ordrer ved hjælp af en blanding af visuelle og verbale data.

Forskere trænede modellen ved at bruge både visuelle og kun sproglige data for at øge MultiModal-GPTs kapacitet til at tale med mennesker. Derudover forårsagede det en mærkbar forbedring i den måde, dens diskurs blev udført på. Det resulterede også i en mærkbar forbedring af samtaleydelsen.

De opdagede, at det at have træningsdata af høj kvalitet er afgørende for god samtaleydelse, fordi et lille datasæt med korte svar kan gøre det muligt for modellen at skabe kortere svar på enhver kommando.

Hvad kan du gøre med MultiModal-GPT?

Engagere sig i samtaler

Ligesom de sprogmodeller, der kom før, er en af MultiModal-GPTs primære egenskaber dens evne til at engagere sig i naturlige sprogdiskussioner. Dette indebærer, at forbrugere kan engagere sig i modellen, ligesom de ville gøre med en rigtig person.

For eksempel kan MultiModal-GPT give kunderne en detaljeret opskrift på at lave nudler eller anbefale mulige restauranter til at spise ude. Modellen er også i stand til at svare på generiske spørgsmål om brugernes rejsehensigter.

Nudler

Genkendelse af objekter

MultiModal-GPT kan genkende ting på billeder og svare på henvendelser om dem. For eksempel kan modellen genkende Freddie Mercury på et billede og svare på forespørgsler om ham.

Den kan også tælle antallet af personer og forklare, hvad de laver på et billede. Denne objektidentifikationskapacitet har applikationer inden for en række forskellige områder, herunder e-handel, sundhedspleje og sikkerhed.

Eksempel

MultiModal-GPT kan også genkende tekst inde i digitale billeder. Dette indebærer, at modellen kan læse teksten på billeder og udtrække nyttige data. Det kan for eksempel registrere personerne i et billede og identificere forfatteren til en bog.

Det er et yderst brugbart værktøj til dokumenthåndtering, datainput og indholdsanalyse.

Gandalf

Ræsonnement og generering af viden

Multi-modal-GPT kan ræsonnere og producere viden om verden. Det betyder, at den kan give fuldstændige forklaringer af fotografier og endda fortælle dem, hvilken årstid billedet blev taget i.

Denne færdighed er nyttig i en række forskellige discipliner, herunder miljøovervågning, landbrug og meteorologi. Modellen kan desuden generere kreative ting som poesi, fortællinger og sange, hvilket gør den til et fremragende værktøj til kreative opgaver.

Indre funktioner i MultiModal-GPT

Skabelon til Unified Instructions

Holdet præsenterer en enkelt skabelon til integration af unimodale sproglige data og multimodale vision-og-sprogdata for korrekt at træne MultiModal-GPT-modellen på en synergistisk måde.

Denne kombinerede strategi forsøger at forbedre modellens ydeevne på tværs af en række opgaver ved at udnytte de komplementære muligheder i begge datamodaliteter og tilskynde til en dybere forståelse af de underliggende ideer.

Dolly 15k og Alpaca GPT4-datasættene bruges af teamet til at måle evner til at følge instruktions-kun sprog. Disse datasæt fungerer som en prompt-skabelon til strukturering af datasætinput for at garantere et ensartet instruktionsfølgende format.

Oversigt over Dolly 15k datasæt

Billede: Oversigt over Doly 15k datasæt

Hvordan fungerer modellen?

Tre nøglekomponenter udgør MultiModal-GPT-modellen: en sprogdekoder, en perceiver-resampler og en vision-koder. Billedet optages af vision-koderen, som derefter genererer en samling af egenskaber, der kendetegner det.

Sprogdekoderen bruger informationen fra vision-koderen til at skabe tekst, der beskriver billedet ved hjælp af perceiver-resampleren.

Den komponent i modellen, der forstår sproget og producerer teksten, er sprogdekoderen. For at forudsige det følgende ord i en sætning trænes modellen ved at bruge både sprog-kun og vision-plus sproginstruktion-følgende data.

Dette lærer modellen, hvordan man reagerer på kommandoer fra mennesker, og giver den acceptable tekst til billedbeskrivelser.

Model

Holdet bag

MultiModal-GPT blev skabt af et team af Microsoft Research Asia-forskere og ingeniører ledet af Tao Gong, Chengqi Lyu og Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo og Kai Chen bidrog alle til modellens undersøgelse og udvikling.

Naturlig sprogbehandling, computersyn, og maskinlæring er alle kompetenceområder for teamet. De har adskillige artikler udgivet i top-tier konferencer og publikationer, samt forskellige hædersbevisninger og priser for deres videnskabelige indsats.

Teamets forskning fokuserer på udviklingen af banebrydende modeller og tilgange til at muliggøre mere naturlige og intelligente interaktioner mellem mennesker og teknologi.

Multimodal-GPT-udvikling er en bemærkelsesværdig præstation på området, da det er en af de første modeller, der kombinerer vision og sprog i en enkelt ramme for multi-runde diskussion.

Holdets bidrag til MultiModal-GPT forskning og udvikling har potentialet til at have en væsentlig indflydelse på fremtiden for naturlig sprogbehandling og menneske-maskine interaktioner.

Sådan bruges MultiModal-GPT

For begyndere er det nemt at bruge MultiModal-GPT-værktøjet. Bare gå til https://mmgpt.openmmlab.org.cn/ og tryk på knappen "Upload billede".

Vælg den billedfil, der skal uploades, og skriv derefter tekstprompten i tekstfeltet. For at oprette et svar fra modellen skal du klikke på knappen "Send", som vises under tekstfeltet.

Du kan eksperimentere med forskellige fotos og instruktioner for at lære mere om modellens muligheder.

Grænseflade 1

Installation

For at installere MultiModal-GPT-pakken skal du bruge terminalkommandoen "git clone https://github.com/open-mmlab/Multimodal-GPT.git" for at klone repository fra GitHub. Du kan blot følge disse trin:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternativt, brug conda env create -f environment.yml at etablere et nyt conda-miljø. Du kan køre demoen lokalt efter installationen ved at downloade de fortrænede vægte og gemme dem i checkpoints-mappen.

Gradio-demoen kan derefter startes ved at køre kommandoen "python app.py".

Potentielle ulemper

MultiModal-GPT-modellen har stadig mangler og plads til udvikling på trods af dens fremragende ydeevne.

For eksempel, når modellen beskæftiger sig med komplicerede eller tvetydige visuelle input, er modellen muligvis ikke altid i stand til at genkende og forstå konteksten af inputtet. Dette kan resultere i unøjagtige forudsigelser eller reaktioner fra modellen.

Derudover, især når inputtet er kompliceret eller åbent, giver modellen muligvis ikke altid den bedste reaktion eller det bedste resultat. Modellens svar kan for eksempel have været påvirket af, hvor ens de to bøgers omslag så ud i tilfælde af den forkerte identifikation af et bogomslag.

Konklusion

Samlet set repræsenterer MultiModal-GPT-modellen et stort skridt fremad inden for naturlig sprogbehandling og maskinlæring. Og det er meget spændende at bruge det og eksperimentere med det. Så du bør også prøve det!

Det har dog begrænsninger, ligesom alle modeller, og kræver yderligere raffinering og forbedring for at opnå maksimal ydeevne i en række applikationer og domæner.