MultiModal-GPT: Frontier Mpya katika Lugha na Muunganisho wa Maono

Umewahi kutamani ungezungumza na AI ambayo inaelewa data inayozungumzwa na inayoonekana? Mfumo wa MultiModal-GPT unachanganya uchakataji wa lugha na uelewa wa kuona.

Inatoa uwezekano wa mwingiliano sahihi na mseto wa binadamu na kompyuta. MultiModal-GPT inaweza kutoa maelezo mafupi, kuhesabu bidhaa binafsi, na kujibu maswali ya jumla ya mtumiaji.

Lakini, inafanyaje hivyo? Na, unaweza kufanya nini na MultiModal-GPT?

Wacha tupeleke hadithi mwanzoni na tuelewe uwezekano ulio mbele yetu.

Kwa kuibuka kwa miundo ya lugha kama GPT-4, teknolojia za usindikaji wa lugha asilia zinashuhudia mapinduzi. Ubunifu kama vile ChatGPT tayari umejumuishwa katika maisha yetu.

Na, wanaonekana kuendelea kuja!

GPT-4 na Mapungufu Yake

GPT-4 imeonyesha ustadi wa ajabu katika mazungumzo ya multimodal na watu. Uchunguzi umefanya jitihada za kurudia utendaji huu, lakini kwa sababu ya uwezekano wa idadi kubwa ya tokeni za picha, ikiwa ni pamoja na mifano iliyo na maelezo sahihi ya kuona inaweza kuwa ghali kwa kukokotoa.

Miundo iliyopo pia haijumuishi upangaji wa maagizo ya lugha katika somo lao, ambayo inazuia uwezo wao wa kushiriki katika mazungumzo ya maandishi ya picha-picha-picha zisizo na sifuri.

Kujenga Juu ya Mfumo wa Flamingo

Muundo mpya unaoitwa MultiModal-GPT ulitengenezwa ili kuwezesha mawasiliano na watu kwa kutumia viashiria vya kiisimu na vya kuona.

Watengenezaji waliajiri programu inayoitwa Mfumo wa Flamingo, ambayo hapo awali ilifunzwa kuelewa maandishi na taswira, ili kufanya hili liwezekane.

Mfumo wa Flamingo

Flamingo ilihitaji mabadiliko fulani, ingawa, kwa kuwa haikuweza kuwa na mazungumzo marefu yaliyojumuisha maandishi na taswira.

Muundo uliosasishwa wa MultiModal-GPT unaweza kukusanya data kutoka kwa picha na kuichanganya na lugha ili kuelewa na kutekeleza amri za wanadamu.

MultiModal-GPT

MultiModal-GPT ni aina ya kielelezo cha AI ambacho kinaweza kufuata maulizo mbalimbali ya binadamu kama vile kuelezea taswira, kuhesabu vitu, na kujibu maswali. Inaelewa na kufuata maagizo kwa kutumia mchanganyiko wa data inayoonekana na ya maneno.

Watafiti walifunza modeli hiyo kwa kutumia data ya kuona na lugha pekee ili kuongeza uwezo wa MultiModal-GPT wa kuzungumza na watu. Zaidi ya hayo, ilisababisha uboreshaji unaoonekana katika njia ambayo hotuba yake ilifanywa. Pia ilisababisha uboreshaji unaoonekana katika utendaji wake wa mazungumzo.

Waligundua kuwa kuwa na data ya mafunzo ya ubora wa juu ni muhimu kwa utendaji mzuri wa mazungumzo, kwa sababu mkusanyiko mdogo wa data wenye majibu mafupi unaweza kuwezesha muundo kuunda majibu mafupi kwa amri yoyote.

Unaweza kufanya nini na MultiModal-GPT?

Kujihusisha na Mazungumzo

Kama miundo ya lugha iliyokuja hapo awali, mojawapo ya sifa kuu za MultiModal-GPT ni uwezo wake wa kushiriki katika mijadala ya lugha asilia. Hii inamaanisha kuwa watumiaji wanaweza kujihusisha na mtindo kama vile wangefanya na mtu halisi.

Kwa mfano, MultiModal-GPT inaweza kuwapa wateja kichocheo cha kina cha kutengeneza noodles au kupendekeza mikahawa inayowezekana kwa kula nje. Muundo huu pia unaweza kujibu maswali ya jumla kuhusu nia ya safari ya watumiaji.

Vipodozi

Utambuzi wa Vitu

MultiModal-GPT inaweza kutambua mambo kwenye picha na kujibu maswali kuyahusu. Kwa mfano, mwanamitindo anaweza kumtambua Freddie Mercury kwenye picha na kujibu maswali kumhusu.

Inaweza pia kuhesabu idadi ya watu binafsi na kueleza kile wanachofanya kwenye picha. Uwezo huu wa kutambua kitu unatumika katika nyanja mbalimbali, ikiwa ni pamoja na biashara ya mtandaoni, huduma ya afya na usalama.

mfano

MultiModal-GPT pia inaweza kutambua maandishi ndani ya picha za dijiti. Hii inamaanisha kuwa mtindo unaweza kusoma maandishi kwenye picha na kutoa data muhimu. Inaweza, kwa mfano, kugundua wahusika katika picha na kutambua mwandishi wa kitabu.

Ni chombo muhimu sana kwa usimamizi wa hati, ingizo la data na uchanganuzi wa maudhui.

Gandalf

Hoja na Kizazi cha Maarifa

Multi-modal-GPT inaweza kufikiria na kutoa maarifa kuhusu ulimwengu. Hii inamaanisha kuwa inaweza kutoa maelezo kamili ya picha na hata kuwaambia picha hiyo ilipigwa katika msimu gani.

Ustadi huu ni muhimu katika taaluma mbalimbali, ikiwa ni pamoja na ufuatiliaji wa mazingira, kilimo, na hali ya hewa. Muundo unaweza kuongeza ubunifu kama vile mashairi, hadithi na nyimbo, na kuifanya kuwa zana bora kwa kazi za ubunifu.

Utendaji wa Ndani wa MultiModal-GPT

Kiolezo cha Maagizo ya Umoja

Timu inawasilisha kiolezo kimoja cha ujumuishaji wa data ya lugha isiyo ya kawaida na data ya maono na lugha ya aina nyingi ili kutoa mafunzo ipasavyo muundo wa MultiModal-GPT kwa njia ya usawazishaji.

Mkakati huu wa pamoja hujaribu kuboresha utendakazi wa muundo katika kazi mbalimbali kwa kutumia uwezo wa ziada wa miundo ya data na kuhimiza ufahamu wa kina wa mawazo ya kimsingi.

Seti za data za Dolly 15k na Alpaca GPT4 hutumiwa na timu kupima uwezo wa kufuata maelekezo kwa lugha pekee. Seti hizi za data hufanya kama kiolezo cha papo hapo cha kupanga ingizo la seti ya data ili kuhakikisha umbizo linalofuata maelekezo.

Muhtasari wa Seti ya Data ya Dolly 15k

Picha: Muhtasari wa seti ya data ya Doly 15k

Je, Mfano Unafanyaje Kazi?

Vipengee vitatu muhimu huunda modeli ya MultiModal-GPT: avkodare ya lugha, kiigaji tena cha kipokezi, na kisimbaji cha maono. Picha inachukuliwa na kisimbaji cha maono, ambacho kisha hutoa mkusanyiko wa sifa zinazoitambulisha.

Kisimbuaji lugha hutumia maelezo kutoka kwa kisimbaji cha maono ili kuunda maandishi ambayo yanafafanua picha kwa usaidizi wa kiigaji tena.

Kipengele cha kielelezo kinachoelewa lugha na kutoa matini ni avkodare ya lugha. Ili kutabiri neno lifuatalo katika kishazi, modeli hufunzwa kwa kutumia data za lugha pekee na maono-pamoja na lugha zinazofuata maelekezo.

Hii inafunza kielelezo jinsi ya kuitikia amri kutoka kwa wanadamu na hutoa maandishi yanayokubalika kwa maelezo ya picha.

Model

Timu ya Nyuma

MultiModal-GPT iliundwa na timu ya watafiti na wahandisi wa Microsoft Research Asia wakiongozwa na Tao Gong, Chengqi Lyu, na Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, na Kai Chen wote walichangia katika utafiti na maendeleo ya mwanamitindo huyo.

Usindikaji wa lugha asilia, maono ya kompyuta, na kujifunza kwa mashine ni maeneo yote ya umahiri kwa timu. Wana nakala kadhaa zilizochapishwa katika mikutano na machapisho ya kiwango cha juu, pamoja na heshima na sifa mbalimbali kwa juhudi zao za kisayansi.

Utafiti wa timu hiyo unazingatia uundaji wa miundo ya kisasa na mbinu ili kuwezesha mwingiliano wa asili na wa kiakili kati ya wanadamu na teknolojia.

Ukuzaji wa GPT wa aina nyingi ni mafanikio makubwa katika uwanja huo kwa kuwa ni mojawapo ya miundo ya kwanza ya kuchanganya maono na lugha katika mfumo mmoja wa majadiliano ya pande nyingi.

Michango ya timu katika utafiti na ukuzaji wa MultiModal-GPT inaweza kuwa na ushawishi mkubwa juu ya mustakabali wa uchakataji wa lugha asilia na mwingiliano wa mashine za binadamu.

Jinsi ya kutumia MultiModal-GPT

Kwa Kompyuta, kutumia zana ya MultiModal-GPT ni rahisi. Nenda tu kwa https://mmgpt.openmmlab.org.cn/ na bonyeza kitufe cha "Pakia Picha".

Chagua faili ya picha ya kupakia, na kisha charaza kidokezo cha maandishi kwenye uga wa maandishi. Ili kuunda jibu kutoka kwa mfano, bofya kitufe cha "Wasilisha", ambacho kitaonekana chini ya uwanja wa maandishi.

Unaweza kujaribu picha na maagizo tofauti ili kupata maelezo zaidi kuhusu uwezo wa modeli.

Kiolesura 1

Kufunga

Ili kusakinisha kifurushi cha MultiModal-GPT, tumia amri ya mwisho "git clone https://github.com/open-mmlab/Multimodal-GPT.git" ili kuiga hazina kutoka GitHub. Unaweza kufuata hatua hizi tu:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Vinginevyo, tumia conda env create -f environment.yml kuanzisha mazingira mapya ya conda. Unaweza kuendesha onyesho ndani ya nchi baada ya kuisakinisha kwa kupakua uzani uliofunzwa awali na kuzihifadhi kwenye folda ya vituo vya ukaguzi.

Onyesho la Gradio basi linaweza kuzinduliwa kwa kutekeleza amri "python app.py".

Vikwazo vinavyowezekana

Mfano wa MultiModal-GPT bado una dosari na nafasi ya maendeleo licha ya utendaji wake bora.

Kwa mfano, inaposhughulika na viingizo changamano au visivyoeleweka vya kuona, modeli huenda isiweze kutambua na kuelewa muktadha wa ingizo kila wakati. Hii inaweza kusababisha ubashiri au majibu yasiyo sahihi kutoka kwa mfano.

Zaidi ya hayo, haswa wakati ingizo ni ngumu au halijafunguliwa, muundo hauwezi kutoa majibu au matokeo bora kila wakati. Jibu la kielelezo, kwa mfano, linaweza kuwa limeathiriwa na jinsi majalada ya vitabu hivyo viwili yalivyofanana katika kesi ya utambulisho usio sahihi wa jalada la kitabu.

Hitimisho

Kwa ujumla, muundo wa MultiModal-GPT unawakilisha hatua kubwa mbele katika usindikaji wa lugha asilia na ujifunzaji wa mashine. Na, inafurahisha sana kuitumia na kuijaribu. Kwa hivyo, unapaswa kujaribu ama!

Hata hivyo, ina mipaka, kama vile miundo yote, na inahitaji uboreshaji wa ziada na uboreshaji ili kupata utendakazi wa juu zaidi katika aina mbalimbali za matumizi na vikoa.