MultiModal-GPT: 'n Nuwe grens in Taal- en Visie-integrasie

Het jy al ooit gewens dat jy met 'n KI kon praat wat beide gesproke en visuele data verstaan? Die MultiModal-GPT-paradigma kombineer taalverwerking met visuele begrip.

Dit bied die moontlikheid van akkurate en gediversifiseerde mens-rekenaar-interaksie. MultiModal-GPT kan beskrywende byskrifte verskaf, individuele items tel en op algemene gebruikersvrae reageer.

Maar, hoe doen dit dit? En wat kan jy doen met MultiModal-GPT?

Kom ons neem die storie na die begin en verstaan die moontlikhede wat vir ons voorlê.

Met die opkoms van taalmodelle soos GPT-4, is natuurlike taalverwerkingstegnologieë getuie van 'n revolusie. Innovasies soos ChatGPT is reeds in ons lewens geïnkorporeer.

En dit lyk asof hulle aanhou kom!

GPT-4 en sy beperkings

GPT-4 het ongelooflike vaardigheid in multimodale gesprekke met mense getoon. Studies het 'n poging aangewend om hierdie prestasie te dupliseer, maar as gevolg van die potensieel hoë aantal prenttekens, kan modelle met presiese visuele inligting rekenkundig duur wees.

Bestaande modelle sluit ook nie taalonderrigafstemming in hul studie in nie, wat hul vermoë beperk om deel te neem aan zero-shot multiturn beeld-teks gesprekke.

Gebou op Flamingo-raamwerk

'n Nuwe model genaamd MultiModal-GPT is ontwikkel om kommunikasie met mense moontlik te maak deur beide linguistiese en visuele leidrade te gebruik.

Die ontwikkelaars het 'n program genaamd die Flamingo raamwerk, wat voorheen opgelei is om beide teks en beeldmateriaal te verstaan, om dit haalbaar te maak.

Flamingo-raamwerk

Flamingo het egter 'n paar veranderinge nodig gehad, aangesien dit nie uitgebreide dialoë kon hê wat teks en beeldmateriaal insluit nie.

Die opgedateerde MultiModal-GPT-model kan data van prente versamel en dit met taal meng om menslike opdragte te begryp en uit te voer.

MultiModal-GPT

MultiModal-GPT is 'n tipe KI-model wat verskeie menslike navrae kan volg, soos om beeldmateriaal te beskryf, items te tel en vrae te beantwoord. Dit verstaan en volg bestellings deur 'n mengsel van visuele en verbale data te gebruik.

Navorsers het die model opgelei deur beide visuele en slegs taaldata te gebruik om MultiModal-GPT se vermoë om met mense te praat, te verhoog. Daarbenewens het dit 'n merkbare verbetering in die manier waarop die diskoers uitgevoer is, veroorsaak. Dit het ook gelei tot 'n merkbare verbetering in sy gesprekprestasie.

Hulle het ontdek dat opleidingsdata van hoë gehalte van kritieke belang is vir goeie gesprekprestasie, want 'n klein datastel met kort antwoorde kan die model in staat stel om korter antwoorde op enige opdrag te skep.

Wat kan jy doen met MultiModal-GPT?

Neem deel aan gesprekke

Soos die taalmodelle wat voorheen gekom het, is een van MultiModal-GPT se primêre kenmerke sy vermoë om by natuurlike taalbesprekings betrokke te raak. Dit impliseer dat verbruikers by die model betrokke kan raak net soos hulle met 'n regte persoon sou doen.

Byvoorbeeld, MultiModal-GPT kan kliënte 'n gedetailleerde resep gee vir die maak van noedels of moontlike restaurante aanbeveel om uit te eet. Die model is ook in staat om te reageer op generiese vrae oor gebruikers se reisvoornemens.

noedels

Herkenning van voorwerpe

MultiModal-GPT kan dinge in foto's herken en reageer op navrae daaroor. Byvoorbeeld, die model kan Freddie Mercury in 'n beeld herken en reageer op navrae oor hom.

Dit kan ook die aantal individue tel en verduidelik wat hulle in 'n prent doen. Hierdie objekidentifikasievermoë het toepassings in 'n verskeidenheid velde, insluitend e-handel, gesondheidsorg en sekuriteit.

voorbeeld

MultiModal-GPT kan ook teks binne digitale prente herken. Dit impliseer dat die model die teks in foto's kan lees en nuttige data kan onttrek. Dit kan byvoorbeeld die karakters in 'n beeld opspoor en die skrywer van 'n boek identifiseer.

Dit is 'n uiters nuttige hulpmiddel vir dokument bestuur, data-invoer en inhoudontleding.

Gandalf

Redenering en generering van kennis

Multi-modale-GPT kan redeneer en kennis oor die wêreld produseer. Dit beteken dit kan volledige verduidelikings van foto's verskaf en selfs vir hulle vertel in watter seisoen die prent geneem is.

Hierdie vaardigheid is nuttig in 'n verskeidenheid dissiplines, insluitend omgewingsmonitering, landbou en meteorologie. Die model kan boonop kreatiewe goed soos poësie, verhale en liedjies genereer, wat dit 'n uitstekende hulpmiddel maak vir kreatiewe take.

Innerlike werking van MultiModal-GPT

Sjabloon vir verenigde instruksies

Die span bied 'n enkele sjabloon aan vir die integrasie van unimodale linguistiese data en multimodale visie-en-taaldata om die MultiModal-GPT-model behoorlik op 'n sinergistiese wyse op te lei.

Hierdie gekombineerde strategie poog om die model se prestasie oor 'n verskeidenheid take te verbeter deur die komplementêre vermoëns van beide datamodaliteite te ontgin en 'n dieper begrip van die onderliggende idees aan te moedig.

Die Dolly 15k- en Alpaca GPT4-datastelle word deur die span gebruik om vermoëns om slegs instruksies te volg, te meet. Hierdie datastelle dien as 'n vinnige sjabloon vir die strukturering van datastelinvoer om 'n konsekwente instruksievolgende formaat te waarborg.

Dolly 15k Dataset Oorsig

Beeld: Oorsig van Doly 15k-datastel

Hoe werk die model?

Drie sleutelkomponente maak die MultiModal-GPT-model uit: 'n taaldekodeerder, 'n waarnemer-hermonsterder en 'n visie-enkodeerder. Die beeld word ingeneem deur die visie-enkodeerder, wat dan 'n versameling kenmerke genereer wat dit kenmerk.

Die taaldekodeerder gebruik die inligting van die visie-enkodeerder om teks te skep wat die beeld beskryf met behulp van die waarnemer-hermonsterder.

Die komponent van die model wat taal verstaan en die teks produseer, is die taaldekodeerder. Om die volgende woord in 'n frase te voorspel, word die model opgelei deur gebruik te maak van beide slegs-taal- en visie-plus-taal-instruksie-volg data.

Dit leer die model hoe om op bevele van mense te reageer en verskaf die aanvaarbare teks vir prentbeskrywings.

model

Span Agter

Die MultiModal-GPT is geskep deur 'n span navorsers en ingenieurs van Microsoft Research Asia onder leiding van Tao Gong, Chengqi Lyu en Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo en Kai Chen het almal bygedra tot die model se studie en ontwikkeling.

Natuurlike taalverwerking, rekenaarvisie, en masjienleer is almal bekwaamheidsareas vir die span. Hulle het verskeie artikels gepubliseer in top-vlak konferensies en publikasies, sowel as verskeie eerbewyse en toekennings vir hul wetenskaplike pogings.

Die navorsing van die span fokus op die ontwikkeling van die nuutste modelle en benaderings om meer natuurlike en intelligente interaksies tussen mense en tegnologie moontlik te maak.

Multi-modale-GPT-ontwikkeling is 'n noemenswaardige prestasie in die veld aangesien dit een van die eerste modelle is om visie en taal in 'n enkele raamwerk vir multi-ronde bespreking te kombineer.

Die span se bydraes tot MultiModal-GPT navorsing en ontwikkeling het die potensiaal om 'n wesenlike invloed op die toekoms van natuurlike taalverwerking en mens-masjien-interaksies te hê.

Hoe om MultiModal-GPT te gebruik

Vir beginners is dit eenvoudig om die MultiModal-GPT-instrument te gebruik. Gaan eenvoudig na https://mmgpt.openmmlab.org.cn/ en druk die "Laai prent op"-knoppie.

Kies die prentlêer om op te laai, en tik dan die teksprompt in die teksveld in. Om 'n antwoord vanaf die model te skep, klik die "Stuur"-knoppie, wat onder die teksveld sal verskyn.

Jy kan eksperimenteer met verskillende foto's en instruksies om meer oor die model se vermoëns te wete te kom.

Koppelvlak 1

Installering

Om die MultiModal-GPT-pakket te installeer, gebruik die terminale opdrag “git clone https://github.com/open-mmlab/Multimodal-GPT.git” om die bewaarplek vanaf GitHub te kloon. Jy kan eenvoudig hierdie stappe volg:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternatiewelik, gebruik conda env create -f environment.yml om 'n nuwe conda-omgewing te vestig. U kan die demo plaaslik laat loop nadat u dit geïnstalleer het deur die vooraf-opgeleide gewigte af te laai en dit in die kontrolepunte-lêergids te stoor.

Die Gradio-demo kan dan geloods word deur die opdrag "python app.py" uit te voer.

Potensiële nadele

Die MultiModal-GPT-model het steeds gebreke en ruimte vir ontwikkeling ondanks sy uitstekende werkverrigting.

Byvoorbeeld, wanneer dit met ingewikkelde of dubbelsinnige visuele insette handel, sal die model dalk nie altyd die konteks van die insette kan herken en begryp nie. Dit kan lei tot onakkurate voorspellings of reaksies van die model.

Daarbenewens, veral wanneer die insette ingewikkeld of oop is, kan die model nie altyd die beste reaksie of resultaat lewer nie. Die model se antwoord is byvoorbeeld moontlik beïnvloed deur hoe soortgelyk die twee boeke se omslae gelyk het in die geval van die verkeerde identifikasie van 'n boekomslag.

Gevolgtrekking

Oor die algemeen verteenwoordig die MultiModal-GPT-model 'n groot stap vorentoe in natuurlike taalverwerking en masjienleer. En dit is baie opwindend om dit te gebruik en daarmee te eksperimenteer. So, jy moet dit ook probeer!

Dit het egter perke, soos alle modelle, en vereis bykomende verfyning en verbetering om maksimum werkverrigting in 'n verskeidenheid toepassings en domeine te verkry.