MultiModal-GPT: Sînorek Nû Di Yekbûna Ziman û Vîzyonê de

Ma we qet xwestiye ku hûn bi AI-yek ku hem daneyên axaftin û hem jî yên dîtbarî fam dike re biaxivin? Paradîgmaya MultiModal-GPT pêvajokirina ziman bi têgihîştina dîtbarî re dike yek.

Ew derfeta danûstendina mirov-komputerê ya rast û cihêreng pêşkêşî dike. MultiModal-GPT dikare sernavên raveker peyda bike, tiştên kesane bijmêre, û bersivê bide pirsên bikarhêner ên gelemperî.

Lê belê, ew çawa çawa dike? Û, hûn dikarin bi MultiModal-GPT re çi bikin?

Werin em çîrokê bidin destpêkê û îmkanên li pêş me fam bikin.

Bi derketina modelên zimanî yên mîna GPT-4, teknolojiyên hilberandina zimanê xwezayî dibin şahidê şoreşê. Nûjeniyên mîna ChatGPT jixwe di jiyana me de hatine bicîh kirin.

Û, ew xuya dikin ku berdewam dikin!

GPT-4 û Sînorên Wê

GPT-4 di danûstendinên multimodal ên bi mirovan re jêhatîbûnek ecêb nîşan da. Lêkolînan hewildanek kirin ku vê performansê dubare bikin, lê ji ber ku potansiyel hejmareke zêde nîşaneyên wêneyê hene, di nav de modelên bi agahdariya dîtbarî ya rastîn dikarin ji hêla hesabkirinê ve biha bin.

Modelên heyî di lêkolîna xwe de ahenga hînkirina ziman jî nagirin, ev jî şiyana wan a beşdarbûna di danûstendinên wêne-nivîsê yên pirzimanî yên zero-shot sînordar dike.

Avakirina Li ser Çarçoveya Flamingo

Modelek nû ya bi navê MultiModal-GPT hate pêşve xistin da ku pêwendiya bi mirovan re hem nîşanên zimanî û hem jî yên dîtbarî bikar bînin.

Pêşdebiran bernameyek bi navê Çarçoveya Flamingo, ku berê hatibû perwerdekirin ku hem nivîs û hem jî dîmenan fam bike, da ku vê yekê pêkan bike.

Çarçoveya Flamingo

Lêbelê, Flamingo hewceyê hin guhertinan bû, ji ber ku ew nekaribû diyalogên dirêjkirî yên ku tê de nivîs û dîmen tê de hene.

Modela nûvekirî ya MultiModal-GPT dikare daneyan ji wêneyan berhev bike û bi zimanî tevlihev bike da ku emrên mirovî fam bike û bi cih bîne.

MultiModal-GPT

MultiModal-GPT celebek modela AI-ê ye ku dikare lêpirsînên mirovî yên cihêreng ên wekî danasîna dîmenan, jimartina tiştan, û bersiva pirsan bişopîne. Ew bi karanîna berhevokek daneyên dîtbarî û devkî fermanan fam dike û dişopîne.

Lekolînwanan modêl hem bi karanîna daneya dîtbar û hem jî tenê zimanî perwerde kirin da ku kapasîteya MultiModal-GPT-ê ya danûstendina bi mirovan re zêde bikin. Wekî din, ew di awayê ku axaftina wê de hate kirin de bû sedema pêşkeftinek berbiçav. Di heman demê de di performansa danûstendina wê de jî çêtirbûnek berbiçav çêbû.

Wan kifş kir ku xwedan daneyên perwerdehiya kalîteya bilind ji bo performansa danûstendinê ya baş krîtîk e, ji ber ku databasek piçûk bi bersivên kurt dibe ku model bihêle ku ji her fermanê re bersivên kurttir biafirîne.

Hûn dikarin bi MultiModal-GPT re çi bikin?

Tevlêbûna di Gotûbêjan de

Mîna modelên zimanên ku berê derketine, yek ji taybetmendiyên bingehîn ên MultiModal-GPT kapasîteya wê ye ku beşdarî nîqaşên zimanê xwezayî bibe. Ev tê vê wateyê ku xerîdar dikarin mîna ku bi kesek rastîn re bi modelê re têkildar bibin.

Mînakî, MultiModal-GPT dikare ji bo çêkirina noodles reçeteyek hûrgulî bide xerîdaran an ji bo xwarinê xwarinên mumkun pêşniyar bike. Model di heman demê de dikare bersivê bide pirsên gelemperî yên di derbarê niyeta rêwîtiya bikarhêneran de.

Noodles

Naskirina Objects

MultiModal-GPT dikare tiştan di wêneyan de nas bike û bersivê bide lêpirsînên li ser wan. Mînakî, model dikare Freddie Mercury di wêneyekê de nas bike û bersivê bide pirsên li ser wî.

Her weha dikare hejmara kesan bijmêre û rave bike ka ew di wêneyekê de çi dikin. Vê kapasîteya nasnameyê di warên cûrbecûr de, di nav de e-bazirganî, lênihêrîna tenduristî, û ewlehiyê de, serîlêdan hene.

Mînak

MultiModal-GPT dikare nivîsê di hundurê wêneyên dîjîtal de jî nas bike. Ev tê vê wateyê ku model dikare nivîsê di wêneyan de bixwîne û daneyên kêrhatî derxe. Mînakî, dibe ku karakterên di wêneyekê de kifş bike û nivîskarê pirtûkekê bide nasîn.

Ew ji bo amûrek pir bikêr e rêveberiya belgeyê, têketina daneyê, û analîza naverokê.

Gandalf

Aqil û Nifşa Zanînê

Multi-modal-GPT dikare di derbarê cîhanê de zanyarî bihizire û hilberîne. Ev tê vê wateyê ku ew dikare ravekirinên tam ên wêneyan peyda bike û tewra ji wan re bêje ka wêne di kîjan demsalê de hatiye kişandin.

Ev jêhatîbûn di cûrbecûr dîsîplînan de, di nav de çavdêriya jîngehê, çandinî, û meteorolojiyê de bikêr e. Model dikare wekî din jî tiştên afirîner ên mîna helbest, çîrok û stranan biafirîne, ku ew ji bo karên afirîner amûrek hêja ye.

Karên Hundir ên MultiModal-GPT

Şablon ji bo Telîmatên Yekgirtî

Tîm ji bo yekkirina daneya zimanî ya yekmodal û daneya dîtin-û-ziman a pirmodal şablonek yekane pêşkêşî dike da ku modela MultiModal-GPT bi rengek hevrêzî bi rêkûpêk perwerde bike.

Ev stratejiya hevgirtî hewl dide ku performansa modelê di nav cûrbecûr karan de bi karanîna kapasîteyên temamker ên her du awayên daneyê û teşwîqkirina têgihiştinek kûr a ramanên bingehîn baştir bike.

Daneyên Dolly 15k û Alpaca GPT4 ji hêla tîmê ve têne bikar anîn da ku karînên şopandina fêrbûnê tenê zimanî bipîvin. Van danehevan wekî şablonek bilez tevdigerin ji bo pêkhatina têketina databasê da ku forma rêwerzek domdar garantî bike.

Dolly 15k Dataset Overview

Wêne: Pêşveçûna daneya Doly 15k

Model Çawa Kar dike?

Sê hêmanên sereke modela MultiModal-GPT pêk tînin: dekoderek ziman, vesazkerek têgihîştî, û şîfrekerek dîtinê. Wêne ji hêla şîfrekera dîtinê ve tê kişandin, ku dûv re komek taybetmendiyên ku wê diyar dike çêdike.

Dekodera zimanî agahdariya ji şîfrekera dîtinê bikar tîne da ku nivîsa ku wêneyê rave dike bi arîkariya vesazkera têgihîştinê biafirîne.

Beşa modela ku ziman têdigihê û metnê hildiberîne dekodera ziman e. Ji bo pêşbînîkirina peyva jêrîn di hevokekê de, model hem bi karanîna tenê ziman û hem jî bi karanîna daneya rêwerzên ziman-vîzyon-plus ve tê perwerde kirin.

Ev modelê fêr dike ka meriv çawa li fermanên mirovan bertek nîşan dide û ji bo ravekirina wêneyan nivîsa pejirandî peyda dike.

model

Team Behind

MultiModal-GPT ji hêla tîmek lêkolîner û endezyarên Lêkolîna Asyayê ya Microsoft ve bi serokatiya Tao Gong, Chengqi Lyu, û Shilong Zhang ve hate afirandin. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, û Kai Chen hemî beşdarî lêkolîn û pêşveçûna modelê bûne.

Pêvajoya zimanê xwezayî, vîzyona computer, û fêrbûna makîneyê ji bo tîmê hemî qadên jêhatî ne. Gelek gotarên wan hene ku di konferans û weşanên bilind de hatine weşandin, û her weha ji bo hewildanên wan ên zanistî xelat û xelatên cihêreng hene.

Lêkolîna tîmê balê dikişîne ser pêşkeftina model û nêzîkatiyên pêşkeftî da ku di navbera mirov û teknolojiyê de têkiliyên xwezayî û jîrtir çêbike.

Pêşveçûna pir-modal-GPT di qadê de serkeftinek berbiçav e ji ber ku ew yek ji modelên yekem e ku dîtin û ziman di çarçoveyek yekane de ji bo nîqaşa pir-dorê berhev dike.

Beşdariyên tîmê di lêkolîn û pêşkeftina MultiModal-GPT de xwedî potansiyel e ku bandorek girîng li paşeroja pêvajokirina zimanê xwezayî û danûstendinên mirov-makîne hebe.

Meriv çawa MultiModal-GPT bikar tîne

Ji bo destpêkan, karanîna amûra MultiModal-GPT hêsan e. Bi tenê biçin https://mmgpt.openmmlab.org.cn/ û pêl bişkoka "Wêneyê barkirin" bike.

Pelê wêneyê ji bo barkirinê hilbijêrin, û dûv re nameya nivîsê di qada nivîsê de binivîsin. Ji bo ku hûn bersivek ji modelê biafirînin, bişkoja "Submit" bikirtînin, ku dê li binê qada nivîsê xuya bibe.

Hûn dikarin wêne û rêwerzên cihêreng biceribînin da ku hûn di derheqê kapasîteyên modelê de bêtir fêr bibin.

Navrû 1

Sazkirina

Ji bo sazkirina pakêta MultiModal-GPT, emrê termînalê "git clone https://github.com/open-mmlab/Multimodal-GPT.git" bikar bînin da ku depoyê ji GitHub klon bikin. Hûn dikarin bi tenê van gavan bişopînin:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Wekî din, bikar bînin conda env create -f environment.yml ji bo avakirina jîngeheke conda nû. Hûn dikarin piştî sazkirina wê demo-yê herêmî bi rê ve bibin bi dakêşandina giraniyên pêş-perwerdekirî û hilanîna wan di peldanka xalên kontrolê de.

Dûv re dibe ku demoya Gradio bi xebitandina fermana "python app.py" were destpêkirin.

Kêmasiyên Potansiyel

Modela MultiModal-GPT tevî performansa wê ya hêja hîn jî kêmasî û cîhê pêşkeftinê heye.

Mînakî, dema ku bi danûstendinên dîtbarî yên tevlihev an nezelal re mijûl dibe, dibe ku model her gav nikaribe çarçoveya têketinê nas bike û fam bike. Ev dibe ku bibe sedema pêşbîniyên nerast an reaksiyonên ji modelê.

Wekî din, nemaze dema ku têketin tevlihev an vekirî be, dibe ku model her gav bertek an encama çêtirîn çê neke. Mînakî, bersiva modelê dibe ku bandor li ser çawaniya dişibihe bergên her du pirtûkan di bûyera nasîna xelet a bergê pirtûkê de hebe.

Xelasî

Bi tevayî, modela MultiModal-GPT di pêvajoyek zimanê xwezayî û fêrbûna makîneyê de gavek mezin pêş ve diçe. Û, karanîna wê û ceribandina wê pir balkêş e. Ji ber vê yekê, divê hûn wê jî biceribînin!

Lêbelê, ew, wekî hemî modelan, sînorên wê hene, û ji bo bidestxistina performansa herî zêde di cûrbecûr serîlêdan û domanan de pêdivî bi safîkirin û pêşkeftina zêde heye.