MultiModal-GPT: A New Frontier in Language and Vision Integration

Hefur þú einhvern tíma óskað þess að þú gætir talað við gervigreind sem skilur bæði töluð og sjónræn gögn? MultiModal-GPT hugmyndafræðin sameinar málvinnslu og sjónrænan skilning.

Það býður upp á möguleika á nákvæmum og fjölbreyttum samskiptum manna og tölvu. MultiModal-GPT getur veitt lýsandi myndatexta, talið einstaka hluti og svarað almennum spurningum notenda.

En, hvernig gerir það það? Og hvað geturðu gert með MultiModal-GPT?

Tökum söguna til byrjunar og skiljum þá möguleika sem eru framundan.

Með tilkomu tungumálalíkana eins og GPT-4 er náttúruleg málvinnslutækni að verða vitni að byltingu. Nýjungar eins og ChatGPT hafa þegar verið felldar inn í líf okkar.

Og þeir virðast halda áfram að koma!

GPT-4 og takmarkanir þess

GPT-4 hefur sýnt ótrúlega færni í fjölþættum samtölum við fólk. Rannsóknir hafa reynt að afrita þessa frammistöðu, en vegna hugsanlegs mikils fjölda myndamerkja, þar á meðal líkön með nákvæmar sjónrænar upplýsingar, geta verið reikningslega dýr.

Núverandi líkön innihalda heldur ekki tungumálakennslustillingu í rannsókninni, sem takmarkar getu þeirra til að taka þátt í núllskotum fjölbeygju mynd-textasamtölum.

Byggir á Flamingo Framework

Nýtt líkan sem kallast MultiModal-GPT var þróað til að gera samskipti við fólk kleift að nota bæði tungumála- og sjónræna vísbendingar.

Hönnuðir notuðu forrit sem kallast Flamingó ramma, sem áður var þjálfað í að skilja bæði texta og myndefni, til að gera þetta framkvæmanlegt.

Flamingo Framework

Flamingo þurfti þó á nokkrum breytingum að halda, þar sem það gat ekki haft lengri samræður sem innihalda texta og myndefni.

Uppfærða MultiModal-GPT líkanið getur safnað gögnum úr myndum og blandað saman við tungumál til að skilja og framkvæma skipanir manna.

MultiModal-GPT

MultiModal-GPT er tegund gervigreindarlíkans sem getur fylgst með ýmsum fyrirspurnum manna eins og að lýsa myndefni, telja hluti og svara spurningum. Það skilur og fylgir skipunum með því að nota blöndu af sjónrænum og munnlegum gögnum.

Vísindamenn þjálfuðu líkanið með því að nota bæði sjónræn og aðeins tungumál til að auka getu MultiModal-GPT til að tala við fólk. Auk þess olli það áberandi framförum í því hvernig orðræða hennar var flutt. Það leiddi einnig til merkjanlegrar framförar í samtalsframmistöðu þess.

Þeir komust að því að það er mikilvægt að hafa hágæða þjálfunargögn fyrir góðan samtalsárangur, vegna þess að lítið gagnasafn með stuttum svörum getur gert líkaninu kleift að búa til styttri svör við hvaða skipun sem er.

Hvað getur þú gert með MultiModal-GPT?

Að taka þátt í samtölum

Eins og tungumálalíkönin sem komu á undan er eitt af aðaleinkennum MultiModal-GPT hæfni þess til að taka þátt í umræðum um náttúrulegt tungumál. Þetta gefur til kynna að neytendur gætu átt samskipti við líkanið alveg eins og þeir myndu gera við alvöru manneskju.

Til dæmis getur MultiModal-GPT gefið viðskiptavinum nákvæma uppskrift að gerð núðla eða mælt með mögulegum veitingastöðum til að borða út. Líkanið er einnig fær um að svara almennum spurningum um ferðaáætlanir notenda.

Núðlur

Viðurkenning á hlutum

MultiModal-GPT getur þekkt hluti á myndum og svarað fyrirspurnum um þá. Til dæmis getur líkanið þekkt Freddie Mercury á mynd og svarað fyrirspurnum um hann.

Það getur líka talið fjölda einstaklinga og útskýrt hvað þeir eru að gera á mynd. Þessi hlutagreiningargeta hefur forrit á ýmsum sviðum, þar á meðal rafræn viðskipti, heilsugæslu og öryggi.

Dæmi

MultiModal-GPT getur einnig þekkt texta í stafrænum myndum. Þetta þýðir að líkanið getur lesið textann á myndum og dregið út gagnleg gögn. Það getur til dæmis greint persónurnar í mynd og auðkennt höfund bókar.

Það er afar gagnlegt tæki fyrir skjalastjórnun, inntak gagna og greiningu á efni.

Gandalf

Rökstuðningur og sköpun þekkingar

Multi-modal-GPT getur rökstutt og framleitt þekkingu um heiminn. Þetta þýðir að það getur veitt fullar skýringar á ljósmyndum og jafnvel sagt þeim á hvaða árstíð myndin var tekin.

Þessi færni er gagnleg í ýmsum greinum, þar á meðal umhverfisvöktun, landbúnaði og veðurfræði. Líkanið getur auk þess búið til skapandi efni eins og ljóð, sögur og lög, sem gerir það að frábæru tæki fyrir skapandi verkefni.

Innri virkni MultiModal-GPT

Sniðmát fyrir sameinaðar leiðbeiningar

Teymið kynnir eitt sniðmát fyrir samþættingu einmóta tungumálagagna og fjölþættra sjón- og tungumálagagna til að þjálfa MultiModal-GPT líkanið á réttan hátt á samverkandi hátt.

Þessi sameinaða stefna reynir að bæta frammistöðu líkansins í margvíslegum verkefnum með því að nýta viðbótargetu beggja gagnaaðferða og hvetja til dýpri skilnings á undirliggjandi hugmyndum.

Dolly 15k og Alpaca GPT4 gagnasöfnin eru notuð af teyminu til að mæla hæfileika til að fylgja kennslu eingöngu í tungumáli. Þessi gagnasöfn virka sem hvetjandi sniðmát til að skipuleggja inntak gagnasafns til að tryggja samræmt snið eftir leiðbeiningum.

Dolly 15k gagnasett yfirlit

Mynd: Yfirlit yfir Doly 15k gagnasafn

Hvernig virkar líkanið?

Þrír lykilþættir mynda MultiModal-GPT líkanið: tungumálaafkóðara, skynjara endursýnara og sjónkóðara. Myndin er tekin inn af sjónkóðaranum sem myndar síðan safn eiginleika sem einkenna hana.

Tungumálakóðarinn notar upplýsingarnar frá sjónkóðaranum til að búa til texta sem lýsir myndinni með aðstoð endursýnismanns skynjarans.

Sá hluti líkansins sem skilur tungumál og framleiðir textann er tungumálaafkóðarinn. Til að spá fyrir um eftirfarandi orð í orðasambandi er líkanið þjálfað með því að nota bæði tungumál eingöngu og sýn-plus tungumálakennslu eftir gögn.

Þetta kennir líkaninu hvernig á að bregðast við skipunum frá mönnum og gefur ásættanlegan texta fyrir myndlýsingar.

Gerð

Lið að baki

MultiModal-GPT var búið til af hópi vísindamanna og verkfræðinga frá Microsoft Research Asíu undir forystu Tao Gong, Chengqi Lyu og Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo og Kai Chen lögðu allir sitt af mörkum við rannsókn og þróun líkansins.

Náttúruleg málvinnsla, tölva sýn, og vélanám eru öll hæfnisvið liðsins. Þeir hafa nokkrar greinar birtar á ráðstefnum og útgáfum af fremstu röð, auk ýmissa heiðurs og viðurkenninga fyrir vísindastarf sitt.

Rannsóknir teymisins beinast að þróun háþróaðra líkana og aðferða til að gera náttúrulegri og skynsamlegri samskipti milli manna og tækni.

Multi-modal-GPT þróun er athyglisvert afrek á þessu sviði þar sem það er eitt af fyrstu módelunum til að sameina sýn og tungumál í einum ramma fyrir marghliða umræðu.

Framlag teymisins til MultiModal-GPT rannsókna og þróunar hefur tilhneigingu til að hafa veruleg áhrif á framtíð náttúrulegrar málvinnslu og samskipta manna og véla.

Hvernig á að nota MultiModal-GPT

Fyrir byrjendur er einfalt að nota MultiModal-GPT tólið. Farðu einfaldlega til https://mmgpt.openmmlab.org.cn/ og ýttu á hnappinn „Hlaða inn mynd“.

Veldu myndskrána sem á að hlaða upp og sláðu síðan inn textakvaðninguna í textareitinn. Til að búa til svar frá líkaninu, smelltu á „Senda“ hnappinn sem mun birtast fyrir neðan textareitinn.

Þú getur gert tilraunir með mismunandi myndir og leiðbeiningar til að læra meira um getu líkansins.

Tengi 1

Uppsetning

Til að setja upp MultiModal-GPT pakkann, notaðu flugstöðvarskipunina „git clone https://github.com/open-mmlab/Multimodal-GPT.git“ til að klóna geymsluna frá GitHub. Þú getur einfaldlega fylgst með þessum skrefum:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Að öðrum kosti, notaðu conda env create -f environment.yml að koma á nýju conda umhverfi. Þú getur keyrt kynninguna á staðnum eftir að hafa sett það upp með því að hlaða niður forþjálfuðum lóðum og geyma þær í eftirlitsmöppunni.

Þá er hægt að ræsa Gradio kynninguna með því að keyra skipunina „python app.py“.

Mögulegir gallar

MultiModal-GPT líkanið hefur enn galla og svigrúm til þróunar þrátt fyrir frábæra frammistöðu.

Til dæmis, þegar tekist er á við flókin eða óljós sjónræn inntak gæti líkanið ekki alltaf greint og skilið samhengi inntaksins. Þetta getur valdið ónákvæmum spám eða viðbrögðum frá líkaninu.

Að auki, sérstaklega þegar inntakið er flókið eða opið, getur líkanið ekki alltaf gefið bestu viðbrögðin eða niðurstöðuna. Svar líkansins kann til dæmis að hafa haft áhrif á það hversu lík kápurnar tvær litu út ef um var að ræða ranga auðkenningu á bókarkápu.

Niðurstaða

Á heildina litið táknar MultiModal-GPT líkanið stórt skref fram á við í náttúrulegri málvinnslu og vélanámi. Og það er mjög spennandi að nota það og gera tilraunir með það. Svo þú ættir að prófa það líka!

Hins vegar hefur það takmörk, eins og allar gerðir, og krefst frekari betrumbóta og endurbóta til að ná hámarksafköstum í ýmsum forritum og lénum.