Avete mai desideratu di pudè cunversà cù una IA chì capisce i dati parlati è visuali? U paradigma MultiModal-GPT combina l'elaborazione di a lingua cù l'intelligenza visuale.
Offre a pussibilità di una interazzione umana-urdinatore precisa è diversificata. MultiModal-GPT pò furnisce didascalie descrittive, cuntà l'articuli individuali, è risponde à e dumande generale di l'utilizatori.
Ma, cumu si fa? E, chì pudete fà cù MultiModal-GPT?
Pigliemu a storia à u principiu è capisce e pussibulità davanti à noi.
Cù l'emergenza di mudelli di lingua cum'è GPT-4, i tecnulugii di trasfurmazioni di a lingua naturale assistenu à una rivoluzione. Innuvazioni cum'è ChatGPT sò digià incorporati in a nostra vita.
È, pare chì cuntinueghjanu à vene !
GPT-4 è e so limitazioni
GPT-4 hà dimustratu una cumpetenza incredibile in conversazioni multimodali cù e persone. I studii anu fattu un sforzu per duplicà sta prestazione, ma per via di u numeru potenzalmentu elevatu di tokens di stampa, cumprese mudelli cù infurmazione visuale precisa pò esse computationally caru.
I mudelli esistenti ùn includenu micca ancu l'accordu di l'istruzione di lingua in u so studiu, chì restringe a so capacità di participà à cunversazione multiturn image-text zero-shot.
Custruendu nantu à u Framework Flamingo
Un novu mudellu chjamatu MultiModal-GPT hè statu sviluppatu per attivà a cumunicazione cù e persone chì utilizanu spunti linguistichi è visuali.
I sviluppatori anu impiegatu un prugramma chjamatu quadru di Flamingo, chì era prima furmatu per capisce u testu è visuale, per fà questu fattibile.
Flamingo avia bisognu di qualchì cambiamentu, perchè ùn era micca capace di avè dialoghi estesi chì includenu testu è visuale.
U mudellu aghjurnatu MultiModal-GPT pò cullà e dati da l'imaghjini è mischjà cù a lingua per capisce è eseguisce cumandamenti umani.
MultiModal-GPT
MultiModal-GPT hè un tipu di mudellu AI chì pò seguità diverse dumande umane cum'è a descrizzione di visuale, cuntà l'articuli, è risponde à e dumande. Capisce è seguita ordini utilizendu una mistura di dati visuale è verbale.
I ricercatori anu furmatu u mudellu utilizendu dati visuali è solu in lingua per aumentà a capacità di MultiModal-GPT di cunversazione cù e persone. Inoltre, hà causatu una migliione notevuli in a manera chì u so discorsu era realizatu. Hè ancu risultatu in una migliione notevuli in a so prestazione di cunversazione.
Anu scupertu chì avè dati di furmazione di alta qualità hè criticu per una bona prestazione di cunversazione, perchè un picculu dataset cù risposti brevi pò permette à u mudellu di creà risposti più brevi à qualsiasi cumandamentu.
Chì pudete fà cù MultiModal-GPT?
Impegnu in cunversazione
Cum'è i mudelli di lingua chì sò vinuti prima, una di e caratteristiche primarie di MultiModal-GPT hè a so capacità di participà à discussioni in lingua naturale. Questu implica chì i cunsumatori ponu impegnà cù u mudellu cum'è cù una persona reale.
Per esempiu, MultiModal-GPT pò dà à i clienti una ricetta dettagliata per fà tagliatelle o ricumandendu pussibuli ristoranti per cena fora. U mudellu hè ancu capaci di risponde à e dumande generiche nantu à l'intenzioni di viaghju di l'utilizatori.
Ricunniscenza di uggetti
MultiModal-GPT pò ricunnosce e cose in foto è risponde à e dumande nantu à elli. Per esempiu, u mudellu pò ricunnosce Freddie Mercury in una maghjina è risponde à e dumande nantu à ellu.
Puderà ancu cuntà u numeru di individui è spiegà ciò chì facenu in una stampa. Questa capacità d'identificazione di l'ughjettu hà applicazioni in una varietà di campi, cumprese e-commerce, assistenza sanitaria è sicurità.
MultiModal-GPT pò ancu ricunnosce u testu in l'imaghjini digitale. Questu implica chì u mudellu pò leghje u testu in foto è estrae dati utili. Pò, per esempiu, detectà i caratteri in una maghjina è identificà l'autore di un libru.
Hè un strumentu estremamente utile per gestione di documenti, input di dati, è analisi di cuntenutu.
Ragiunamentu è Generazione di Cunniscenza
Multi-modal-GPT pò ragiunà è pruduce cunniscenze nantu à u mondu. Questu significa chì pò furnisce spiegazioni cumplete di e fotografie è ancu dì à quale stagione l'imaghjini hè stata presa.
Sta cumpetenza hè utile in una varietà di discipline, cumprese u monitoraghju ambientale, l'agricultura è a meteorologia. U mudellu pò ancu generà cose creative cum'è puesia, racconti è canzoni, facendu un strumentu eccellente per i travaglii creativi.
Funzionamenti interni di MultiModal-GPT
Template per Istruzzioni Unificate
A squadra presenta un mudellu unicu per l'integrazione di dati linguistichi unimodali è dati multimodali di visione è lingua per furmà bè u mudellu MultiModal-GPT in modu sinergicu.
Questa strategia cumminata prova di migliurà a prestazione di u mudellu in una varietà di attività sfruttendu e capacità cumplementarii di e duie modalità di dati è incuraghjendu una comprensione più profonda di l'idee sottostanti.
I datasets di Dolly 15k è Alpaca GPT4 sò usati da a squadra per misurà l'abilità di seguitu di istruzzioni solu in lingua. Questi datasets agiscenu cum'è un mudellu promptatu per a strutturazione di l'input di dataset per guarantisce un furmatu coherente di seguitu di istruzzioni.
Image: Panoramica di Doly 15k dataset
Cumu funziona u mudellu?
Trè cumpunenti chjave custituiscenu u mudellu MultiModal-GPT: un decoder di lingua, un resampler perceiver, è un codificatore di visione. L'imaghjini hè pigliatu da u codificatore di visione, chì poi genera una cullizzioni di caratteristiche chì a carattirizza.
U decodificatore di lingua usa l'infurmazioni da u codificatore di visione per creà testu chì descrive l'imaghjini cù l'aiutu di u resampler perceiver.
U cumpunente di u mudellu chì capisce a lingua è pruduce u testu hè u decoder di lingua. Per predichendu a seguente parolla in una frasa, u mudellu hè furmatu utilizendu i dati di l'istruzione di lingua solu è di visione-plus.
Questu insegna à u mudellu cumu reagisce à i cumandamenti da l'omu è furnisce u testu accettabile per e descrizzioni di stampa.
Squadra daretu
U MultiModal-GPT hè statu creatu da una squadra di ricercatori è ingegneri Microsoft Research Asia guidati da Tao Gong, Chengqi Lyu è Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo è Kai Chen tutti cuntribuitu à u studiu è u sviluppu di u mudellu.
Trattamentu di a lingua naturale, visione per computer, è l'apprendimentu automaticu sò tutti i spazii di cumpetenza per a squadra. Hanu parechji articuli publicati in cunferenze è publicazioni di primu livellu, è ancu diversi onori è riconoscimenti per i so sforzi scientifichi.
A ricerca di a squadra si cuncentra nantu à u sviluppu di mudelli è approcci d'avanguardia per attivà interazzioni più naturali è intelligenti trà l'omu è a tecnulugia.
U sviluppu multi-modale-GPT hè una realizazione degne di nota in u campu postu chì hè unu di i primi mudelli per unisce a visione è a lingua in un unicu quadru per a discussione multi-round.
I cuntributi di a squadra à a ricerca è u sviluppu di MultiModal-GPT anu u putenziale di avè una influenza sustanziale nantu à u futuru di l'elaborazione di a lingua naturale è l'interazzione umanu-macchina.
Cumu aduprà MultiModal-GPT
Per i principianti, aduprà l'uttellu MultiModal-GPT hè simplice. Basta andà à https://mmgpt.openmmlab.org.cn/ è appughjà u buttone "Carica Image".
Sceglite u schedariu di stampa per carica, è dopu scrivite u prompt di testu in u campu di testu. Per creà una risposta da u mudellu, cliccate nant'à u buttone "Submit", chì apparirà sottu à u campu di testu.
Pudete sperimentà diverse foto è struzzioni per amparà più nantu à e capacità di u mudellu.
Stallà
Per installà u pacchettu MultiModal-GPT, utilizate u cumandamentu di u terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" per clone u repository da GitHub. Pudete simpricimenti seguità issi passi:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
In alternativa, aduprà conda env create -f environment.yml
per stabilisce un novu ambiente cunda. Puderete eseguisce a demo in u locu dopu a stallazione, scarichendu i pesi pre-addestrati è almacenendu in u cartulare di i punti di cuntrollu.
A demo di Gradio pò esse lanciata da u cumandamentu "python app.py".
Inconvenienti putenziali
U mudellu MultiModal-GPT hà sempre difetti è spaziu per u sviluppu malgradu a so prestazione eccellente.
Per esempiu, quandu si tratta di inputs visuali complicati o ambigui, u mudellu puderia micca sempre esse capace di ricunnosce è capisce u cuntestu di l'input. Questu pò esse risultatu in prediczioni imprecisi o reazzioni da u mudellu.
Inoltre, in particulare quandu l'input hè cumplicatu o apertu, u mudellu ùn pò micca sempre pruduce a megliu reazione o risultatu. A risposta di u mudellu, per esempiu, pò esse stata affettata da quantu simili parevanu i dui libri in u casu di l'identificazione incorrecta di una coperta di libru.
cunchiusioni
In generale, u mudellu MultiModal-GPT rapprisenta un grande passu avanti in a trasfurmazioni di a lingua naturale è l'apprendimentu automaticu. È, hè assai eccitante per aduprà è sperimentà cun ellu. Dunque, duvete ancu pruvà!
Tuttavia, hà limiti, cum'è tutti i mudelli, è esige raffinamentu supplementu è rinfurzà per ottene u massimu rendimentu in una varietà di applicazioni è domini.
Lascia un Audiolibro