MultiModal-GPT: Nova granica u integraciji jezika i vizije

Jeste li ikada poželjeli razgovarati s umjetnom inteligencijom koja razumije govorne i vizualne podatke? MultiModal-GPT paradigma kombinira jezičnu obradu s vizualnim razumijevanjem.

Nudi mogućnost točne i raznolike interakcije između čovjeka i računala. MultiModal-GPT može dati opisne naslove, prebrojati pojedinačne stavke i odgovoriti na opća pitanja korisnika.

Ali, kako to čini? I što možete učiniti s MultiModal-GPT?

Vratimo priču na početak i shvatimo mogućnosti koje su pred nama.

S pojavom jezičnih modela poput GPT-4, tehnologije obrade prirodnog jezika doživljavaju revoluciju. Inovacije poput ChatGPT-a već su ugrađene u naše živote.

I čini se da nastavljaju dolaziti!

GPT-4 i njegova ograničenja

GPT-4 je pokazao nevjerojatnu vještinu u multimodalnim razgovorima s ljudima. Studije su pokušale duplicirati ovu izvedbu, ali zbog potencijalno velikog broja slikovnih tokena, uključujući modele s preciznim vizualnim informacijama može biti računalno skupo.

Postojeći modeli također ne uključuju ugađanje jezičnih uputa u svojoj studiji, što ograničava njihovu sposobnost sudjelovanja u razgovorima slika-tekst bez snimanja i više okretaja.

Nadogradnja na Flamingo okvir

Novi model nazvan MultiModal-GPT razvijen je kako bi se omogućila komunikacija s ljudima koristeći i jezične i vizualne znakove.

Programeri su koristili program pod nazivom Flamingo okvir, koji je prethodno obučen da razumije i tekst i vizualne elemente, kako bi to učinio izvedivim.

Okvir Flamingo

Flamingo je ipak trebao neke promjene jer nije mogao imati proširene dijaloge koji uključuju tekst i vizualne elemente.

Ažurirani MultiModal-GPT model može prikupljati podatke iz slika i miješati ih s jezikom kako bi razumio i izvršio ljudske naredbe.

MultiModal-GPT

MultiModal-GPT je vrsta AI modela koji može pratiti različite ljudske upite kao što su opisivanje vizualnih elemenata, brojanje stavki i odgovaranje na pitanja. Razumije i slijedi naredbe koristeći kombinaciju vizualnih i verbalnih podataka.

Istraživači su trenirali model koristeći i vizualne i jezične podatke kako bi povećali sposobnost MultiModal-GPT-a da razgovara s ljudima. Dodatno, prouzročio je zamjetan napredak u načinu izvođenja svog diskursa. Također je rezultiralo primjetnim poboljšanjem performansi razgovora.

Otkrili su da je posjedovanje visokokvalitetnih podataka o obuci ključno za dobru izvedbu razgovora, jer mali skup podataka s kratkim odgovorima može omogućiti modelu stvaranje kraćih odgovora na bilo koju naredbu.

Što možete učiniti s MultiModal-GPT?

Uključivanje u razgovore

Poput jezičnih modela koji su se pojavili prije, jedna od primarnih karakteristika MultiModal-GPT-a je njegova sposobnost uključivanja u rasprave o prirodnom jeziku. To implicira da potrošači mogu komunicirati s modelom kao što bi radili sa stvarnom osobom.

Na primjer, MultiModal-GPT može kupcima dati detaljan recept za izradu rezanaca ili preporučiti moguće restorane za objedovanje vani. Model također može odgovoriti na generička pitanja o namjerama putovanja korisnika.

Rezanci

Prepoznavanje objekata

MultiModal-GPT može prepoznati stvari na fotografijama i odgovoriti na upite o njima. Na primjer, model može prepoznati Freddieja Mercuryja na slici i odgovoriti na upite o njemu.

Također može prebrojati broj pojedinaca i objasniti što rade na slici. Ovaj kapacitet identifikacije objekta ima primjenu u raznim područjima, uključujući e-trgovinu, zdravstvo i sigurnost.

Primjer

MultiModal-GPT također može prepoznati tekst unutar digitalnih slika. To znači da model može čitati tekst na fotografijama i izdvajati korisne podatke. Može, na primjer, otkriti likove na slici i identificirati autora knjige.

To je izuzetno koristan alat za upravljanje dokumentima, unos podataka i analiza sadržaja.

Gandalf

Rasuđivanje i generiranje znanja

Multi-modalni-GPT može razmišljati i proizvesti znanje o svijetu. To znači da može pružiti potpuna objašnjenja fotografija i čak im reći u kojem je godišnjem dobu slika snimljena.

Ova vještina je korisna u raznim disciplinama, uključujući praćenje okoliša, poljoprivredu i meteorologiju. Model može dodatno generirati kreativne stvari poput poezije, priča i pjesama, što ga čini izvrsnim alatom za kreativne zadatke.

Unutarnji rad MultiModal-GPT-a

Predložak za objedinjene upute

Tim predstavlja jedan predložak za integraciju unimodalnih lingvističkih podataka i multimodalnih podataka o viziji i jeziku kako bi se pravilno uvježbao MultiModal-GPT model na sinergistički način.

Ova kombinirana strategija pokušava poboljšati izvedbu modela u različitim zadacima iskorištavanjem komplementarnih mogućnosti oba modaliteta podataka i poticanjem dubljeg razumijevanja temeljnih ideja.

Skupove podataka Dolly 15k i Alpaca GPT4 koristi tim za mjerenje sposobnosti praćenja uputa samo na jeziku. Ovi skupovi podataka djeluju kao brzi predložak za strukturiranje unosa skupa podataka kako bi se zajamčio dosljedan format koji slijedi upute.

Pregled skupa podataka Dolly 15k

Slika: Pregled skupa podataka Doly 15k

Kako model radi?

Tri ključne komponente čine MultiModal-GPT model: jezični dekoder, perceiver resampler i vidni koder. Sliku preuzima vidni koder, koji zatim generira zbirku karakteristika koje je karakteriziraju.

Jezični dekoder koristi informacije iz vidnog kodera za stvaranje teksta koji opisuje sliku uz pomoć perceiver resamplera.

Komponenta modela koja razumije jezik i proizvodi tekst je jezični dekoder. Kako bi se predvidjela sljedeća riječ u frazi, model se obučava pomoću podataka koji se odnose samo na jezik i podatke koji prate jezične upute za viziju.

Ovo uči model kako reagirati na ljudske naredbe i daje prihvatljiv tekst za opise slika.

Model

Tim iza

MultiModal-GPT kreirao je tim istraživača i inženjera Microsoft Research Asia pod vodstvom Tao Gonga, Chengqi Lyua i Shilong Zhanga. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo i Kai Chen pridonijeli su proučavanju i razvoju modela.

Obrada prirodnog jezika, računalni vid, i strojno učenje sva su područja kompetencije tima. Imaju nekoliko članaka objavljenih na vrhunskim konferencijama i publikacijama, kao i razne počasti i priznanja za svoje znanstvene napore.

Istraživanje tima usmjereno je na razvoj najsuvremenijih modela i pristupa za omogućavanje prirodnije i inteligentnije interakcije između ljudi i tehnologije.

Razvoj multimodalnog GPT-a je postignuće vrijedno pažnje na ovom području budući da je to jedan od prvih modela koji kombiniraju viziju i jezik u jednom okviru za raspravu u više krugova.

Doprinosi tima istraživanju i razvoju MultiModal-GPT imaju potencijal značajnog utjecaja na budućnost obrade prirodnog jezika i interakcije čovjeka i stroja.

Kako koristiti MultiModal-GPT

Za početnike, korištenje MultiModal-GPT alata je jednostavno. Jednostavno idite na https://mmgpt.openmmlab.org.cn/ i pritisnite gumb "Učitaj sliku".

Odaberite slikovnu datoteku za prijenos, a zatim upišite tekstualni upit u tekstualno polje. Da biste kreirali odgovor iz modela, kliknite gumb "Pošalji" koji će se pojaviti ispod tekstualnog polja.

Možete eksperimentirati s različitim fotografijama i uputama kako biste saznali više o mogućnostima modela.

Sučelje 1

Instaliranje

Da biste instalirali MultiModal-GPT paket, koristite naredbu terminala “git clone https://github.com/open-mmlab/Multimodal-GPT.git” za kloniranje repozitorija iz GitHuba. Možete jednostavno slijediti ove korake:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternativno, koristite conda env create -f environment.yml uspostaviti novo okruženje conda. Demonstraciju možete pokrenuti lokalno nakon što je instalirate tako što ćete preuzeti unaprijed pripremljene utege i pohraniti ih u mapu kontrolnih točaka.

Demo Gradio tada se može pokrenuti pokretanjem naredbe “python app.py”.

Potencijalni nedostaci

MultiModal-GPT model još uvijek ima nedostataka i prostora za razvoj unatoč izvrsnim performansama.

Na primjer, kada se radi o kompliciranim ili dvosmislenim vizualnim unosima, model možda neće uvijek moći prepoznati i razumjeti kontekst unosa. To može rezultirati netočnim predviđanjima ili reakcijama modela.

Osim toga, osobito kada je unos kompliciran ili otvoren, model možda neće uvijek dati najbolju reakciju ili rezultat. Odgovor modela je, na primjer, mogao biti pod utjecajem toga koliko su korice dviju knjiga izgledale slično u slučaju netočne identifikacije naslovnice knjige.

Zaključak

Sve u svemu, MultiModal-GPT model predstavlja veliki korak naprijed u obradi prirodnog jezika i strojnom učenju. I vrlo je uzbudljivo koristiti ga i eksperimentirati s njim. Dakle, trebali biste ga isprobati!

Međutim, on ima ograničenja, kao i svi modeli, i zahtijeva dodatno usavršavanje i poboljšanje kako bi se postigla maksimalna izvedba u raznim aplikacijama i domenama.