MultiModal-GPT: Ffin Newydd mewn Integreiddio Iaith a Gweledigaeth

A ydych erioed wedi dymuno y gallech sgwrsio ag AI sy'n deall data llafar a gweledol? Mae'r patrwm MultiModal-GPT yn cyfuno prosesu iaith â dealltwriaeth weledol.

Mae'n cynnig y posibilrwydd o ryngweithio dynol-cyfrifiadur cywir ac amrywiol. Amlfodd-GPT yn gallu darparu capsiynau disgrifiadol, cyfrif eitemau unigol, ac ymateb i gwestiynau cyffredinol defnyddwyr.

Ond, sut mae'n gwneud hynny? A beth allwch chi ei wneud ag MultiModal-GPT?

Gadewch i ni fynd â'r stori i'r dechrau a deall y posibiliadau sydd o'n blaenau.

Gyda dyfodiad modelau iaith fel GPT-4, mae technolegau prosesu iaith naturiol yn dyst i chwyldro. Mae arloesiadau fel ChatGPT eisoes wedi'u hymgorffori yn ein bywydau.

Ac, mae'n ymddangos eu bod yn dal i ddod!

GPT-4 a'i Gyfyngiadau

Mae GPT-4 wedi dangos hyfedredd anhygoel mewn sgyrsiau amlfodd gyda phobl. Mae astudiaethau wedi gwneud ymdrech i ddyblygu'r perfformiad hwn, ond oherwydd y nifer uchel o docynnau llun, gall cynnwys modelau gyda gwybodaeth weledol fanwl gywir fod yn ddrud yn gyfrifiadol.

Nid yw modelau presennol ychwaith yn cynnwys tiwnio cyfarwyddiadau iaith yn eu hastudiaeth, sy'n cyfyngu ar eu gallu i gymryd rhan mewn sgyrsiau delwedd-destun amldro sero.

Fframwaith Adeiladu ar Flamingo

Datblygwyd model newydd o'r enw MultiModal-GPT i alluogi cyfathrebu â phobl gan ddefnyddio ciwiau ieithyddol a gweledol.

Cyflogodd y datblygwyr raglen o'r enw y Fframwaith Flamingo, a hyfforddwyd yn flaenorol i amgyffred testun a gweledol, i wneud hyn yn ddichonadwy.

Fframwaith Flamingo

Fodd bynnag, roedd angen rhai newidiadau ar Flamingo gan na allai gael deialogau estynedig a oedd yn cynnwys testun a delweddau.

Gall y model MultiModal-GPT wedi'i ddiweddaru gasglu data o luniau a'i gymysgu ag iaith i ddeall a chyflawni gorchmynion dynol.

Amlfodd-GPT

Mae MultiModal-GPT yn fath o fodel AI a all ddilyn amrywiol ymholiadau dynol megis disgrifio delweddau, cyfrif eitemau, ac ateb cwestiynau. Mae'n deall ac yn dilyn trefn gan ddefnyddio cymysgedd o ddata gweledol a llafar.

Hyfforddodd ymchwilwyr y model gan ddefnyddio data gweledol ac iaith yn unig i gynyddu gallu MultiModal-GPT i sgwrsio â phobl. Yn ogystal, achosodd welliant amlwg yn y ffordd y perfformiwyd ei sgwrs. Arweiniodd hefyd at welliant amlwg yn ei berfformiad sgwrsio.

Fe wnaethant ddarganfod bod cael data hyfforddi o ansawdd uchel yn hanfodol ar gyfer perfformiad sgwrsio da, oherwydd gallai set ddata fach gydag ymatebion byr alluogi'r model i greu ymatebion byrrach i unrhyw orchymyn.

Beth Allwch Chi Ei Wneud Gydag Aml-foddol-GPT?

Cymryd rhan mewn Sgyrsiau

Fel y modelau iaith a ddaeth yn flaenorol, un o brif nodweddion MultiModal-GPT yw ei allu i gymryd rhan mewn trafodaethau iaith naturiol. Mae hyn yn awgrymu y gall defnyddwyr ymgysylltu â'r model yn union fel y byddent gyda pherson go iawn.

Er enghraifft, gall MultiModal-GPT roi rysáit fanwl i gwsmeriaid ar gyfer gwneud nwdls neu argymell bwytai posibl ar gyfer bwyta allan. Mae'r model hefyd yn gallu ymateb i gwestiynau cyffredinol am fwriadau tripiau defnyddwyr.

Nwdls

Cydnabod Gwrthrychau

Gall MultiModal-GPT adnabod pethau mewn lluniau ac ymateb i ymholiadau amdanynt. Er enghraifft, gall y model adnabod Freddie Mercury mewn delwedd ac ymateb i ymholiadau amdano.

Gall hefyd gyfrif nifer yr unigolion ac egluro beth maent yn ei wneud mewn llun. Mae gan y gallu adnabod gwrthrych hwn gymwysiadau mewn amrywiaeth o feysydd, gan gynnwys e-fasnach, gofal iechyd a diogelwch.

enghraifft

Gall MultiModal-GPT hefyd adnabod testun y tu mewn i luniau digidol. Mae hyn yn awgrymu y gall y model ddarllen y testun mewn lluniau a thynnu data defnyddiol. Gall, er enghraifft, ganfod y cymeriadau mewn delwedd ac adnabod awdur llyfr.

Mae'n arf hynod ddefnyddiol ar gyfer rheoli dogfennau, mewnbynnu data, a dadansoddi cynnwys.

Gandalf

Rhesymu a Chynhyrchu Gwybodaeth

Gall aml-foddol-GPT resymu a chynhyrchu gwybodaeth am y byd. Mae hyn yn golygu y gall roi esboniadau llawn o ffotograffau a hyd yn oed ddweud wrthynt ym mha dymor y tynnwyd y ddelwedd.

Mae'r sgil hon yn ddefnyddiol mewn amrywiaeth o ddisgyblaethau, gan gynnwys monitro amgylcheddol, amaethyddiaeth, a meteoroleg. Gall y model hefyd gynhyrchu pethau creadigol fel barddoniaeth, chwedlau a chaneuon, gan ei wneud yn arf rhagorol ar gyfer tasgau creadigol.

Gweithrediad Mewnol Aml-foddol-GPT

Templed ar gyfer Cyfarwyddiadau Unedig

Mae'r tîm yn cyflwyno un templed ar gyfer integreiddio data ieithyddol unimodal a data gweledigaeth-ac-iaith amlfodd i hyfforddi'r model Aml-foddol-GPT yn iawn mewn modd synergaidd.

Mae'r strategaeth gyfunol hon yn ceisio gwella perfformiad y model ar draws amrywiaeth o dasgau trwy fanteisio ar alluoedd cyflenwol y ddau ddull data ac annog dealltwriaeth ddyfnach o'r syniadau sylfaenol.

Mae'r tîm yn defnyddio setiau data Dolly 15k ac Alpaca GPT4 i fesur galluoedd dilyn cyfarwyddiadau iaith yn unig. Mae'r setiau data hyn yn gweithredu fel templed ysgogi ar gyfer strwythuro mewnbwn set ddata i warantu fformat cyson sy'n dilyn cyfarwyddiadau.

Dolly 15k Trosolwg Set Ddata

Delwedd: Trosolwg o set ddata Doly 15k

Sut Mae'r Model yn Gweithio?

Mae tair cydran allweddol yn rhan o'r model MultiModal-GPT: datgodiwr iaith, ailsamplydd canfyddiad, ac amgodiwr gweledigaeth. Cymerir y ddelwedd i mewn gan yr amgodiwr gweledigaeth, sydd wedyn yn cynhyrchu casgliad o nodweddion sy'n ei nodweddu.

Mae'r datgodiwr iaith yn defnyddio'r wybodaeth o'r amgodiwr gweledigaeth i greu testun sy'n disgrifio'r ddelwedd gyda chymorth yr ailsampiwr canfyddwr.

Cydran y model sy'n deall iaith ac yn cynhyrchu'r testun yw'r datgodydd iaith. I ragfynegi'r gair canlynol mewn ymadrodd, mae'r model wedi'i hyfforddi gan ddefnyddio data iaith yn unig a gweledigaeth-plws cyfarwyddyd iaith-yn dilyn.

Mae hyn yn dysgu'r model sut i ymateb i orchmynion gan fodau dynol ac yn darparu'r testun derbyniol ar gyfer disgrifiadau llun.

model

Tîm y Tu ôl

Crëwyd y MultiModal-GPT gan dîm o ymchwilwyr a pheirianwyr Microsoft Research Asia dan arweiniad Tao Gong, Chengqi Lyu, a Shilong Zhang. Cyfrannodd Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, a Kai Chen i gyd at astudiaeth a datblygiad y model.

Prosesu iaith naturiol, gweledigaeth gyfrifiadurol, a dysgu peirianyddol i gyd yn feysydd cymhwysedd ar gyfer y tîm. Mae ganddyn nhw sawl erthygl wedi'u cyhoeddi mewn cynadleddau a chyhoeddiadau haen uchaf, yn ogystal ag amrywiol anrhydeddau ac anrhydeddau am eu hymdrechion gwyddonol.

Mae ymchwil y tîm yn canolbwyntio ar ddatblygu modelau a dulliau blaengar i alluogi rhyngweithio mwy naturiol a deallus rhwng bodau dynol a thechnoleg.

Mae datblygiad aml-foddol-GPT yn gyflawniad nodedig yn y maes gan ei fod yn un o'r modelau cyntaf i gyfuno gweledigaeth ac iaith mewn un fframwaith ar gyfer trafodaeth aml-rownd.

Mae gan gyfraniadau'r tîm at ymchwil a datblygu MultiModal-GPT y potensial i ddylanwadu'n sylweddol ar ddyfodol prosesu iaith naturiol a rhyngweithiadau dynol-peiriant.

Sut i Ddefnyddio MultiModal-GPT

I ddechreuwyr, mae defnyddio'r offeryn MultiModal-GPT yn syml. Yn syml, ewch i https://mmgpt.openmmlab.org.cn/ a phwyswch y botwm "Llwytho Delwedd".

Dewiswch y ffeil llun i'w huwchlwytho, ac yna teipiwch yr anogwr testun i'r maes testun. I greu ymateb o'r model, cliciwch ar y botwm “Cyflwyno”, a fydd yn ymddangos o dan y maes testun.

Gallwch arbrofi gyda gwahanol luniau a chyfarwyddiadau i ddysgu mwy am alluoedd y model.

Rhyngwyneb 1

Gosod

I osod y pecyn MultiModal-GPT, defnyddiwch y gorchymyn terfynell “git clone https://github.com/open-mmlab/Multimodal-GPT.git” i glonio'r ystorfa o GitHub. Yn syml, gallwch chi ddilyn y camau hyn:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Fel arall, defnyddiwch conda env create -f environment.yml i sefydlu amgylchedd conda newydd. Gallwch redeg y demo yn lleol ar ôl ei osod trwy lawrlwytho'r pwysau sydd wedi'u hyfforddi ymlaen llaw a'u storio yn y ffolder pwyntiau gwirio.

Yna gellir lansio demo Gradio trwy redeg y gorchymyn “python app.py”.

Anfanteision Posibl

Mae gan y model MultiModal-GPT ddiffygion o hyd a lle i ddatblygu er gwaethaf ei berfformiad rhagorol.

Er enghraifft, wrth ymdrin â mewnbynnau gweledol cymhleth neu amwys, efallai na fydd y model bob amser yn gallu adnabod a deall cyd-destun y mewnbwn. Gall hyn arwain at ragfynegiadau neu ymatebion anghywir o'r model.

Yn ogystal, yn enwedig pan fo'r mewnbwn yn gymhleth neu'n benagored, efallai na fydd y model bob amser yn cynhyrchu'r adwaith neu'r canlyniad gorau. Mae'n bosibl bod ateb y model, er enghraifft, wedi'i effeithio gan ba mor debyg yr oedd cloriau'r ddau lyfr yn edrych yn achos nodi clawr llyfr yn anghywir.

Casgliad

Yn gyffredinol, mae'r model MultiModal-GPT yn gam mawr ymlaen mewn prosesu iaith naturiol a dysgu peiriannau. Ac, mae'n gyffrous iawn ei ddefnyddio ac arbrofi ag ef. Felly, dylech chi roi cynnig arni chwaith!

Fodd bynnag, mae ganddo derfynau, fel y mae pob model, ac mae angen ei fireinio a'i wella ymhellach i gael y perfformiad mwyaf posibl mewn amrywiaeth o gymwysiadau a pharthau.