MultiModal-GPT: Usa ka Bag-ong Frontier sa Paghiusa sa Pinulongan ug Panan-awon

Nangandoy ka ba nga makapakigsulti ka sa usa ka AI nga nakasabut sa gisulti ug biswal nga datos? Ang MultiModal-GPT paradigm naghiusa sa pagproseso sa pinulongan uban sa biswal nga pagsabot.

Nagtanyag kini sa posibilidad sa tukma ug lainlain nga interaksyon sa tawo-computer. MultiModal-GPT makahatag ug deskriptibong mga kapsyon, mag-ihap sa tagsa-tagsa ka mga butang, ug motubag sa kinatibuk-ang pangutana sa tiggamit.

Apan, sa unsang paagi kini mahimo? Ug, unsa ang imong mahimo sa MultiModal-GPT?

Atong dad-on ang istorya sa sinugdanan ug sabton ang mga posibilidad sa unahan.

Sa pagtungha sa mga modelo sa pinulongan sama sa GPT-4, ang natural nga mga teknolohiya sa pagproseso sa pinulongan nagsaksi sa usa ka rebolusyon. Ang mga inobasyon sama sa ChatGPT naapil na sa atong kinabuhi.

Ug, daw nagpadayon sila sa pag-abot!

GPT-4 ug ang mga Limitasyon niini

Ang GPT-4 nagpakita og talagsaon nga kahanas sa multimodal nga panag-istoryahanay sa mga tawo. Ang mga pagtuon mihimo og paningkamot sa pagdoble niini nga performance, apan tungod sa posibleng taas nga gidaghanon sa mga picture token, lakip na ang mga modelo nga adunay tukma nga biswal nga impormasyon mahimong mahal sa computation.

Ang kasamtangan nga mga modelo wala usab naglakip sa pagtudlo sa pinulongan nga tuning sa ilang pagtuon, nga nagpugong sa ilang abilidad sa pag-apil sa zero-shot multiturn image-text nga panag-istoryahanay.

Pagtukod Diha sa Flamingo Framework

Usa ka bag-ong modelo nga gitawag og MultiModal-GPT ang gihimo aron makahimo sa komunikasyon sa mga tawo gamit ang linguistic ug visual cues.

Ang mga developers naggamit sa usa ka programa nga gitawag ug Flamingo framework, nga kaniadto gibansay aron masabtan ang teksto ug biswal, aron mahimo kini nga mahimo.

Flamingo Framework

Ang Flamingo nanginahanglan pipila ka mga pagbag-o, bisan pa, tungod kay wala kini makahimo nga gipalawig nga mga diyalogo nga naglakip sa teksto ug mga biswal.

Ang gi-update nga MultiModal-GPT nga modelo makatigom ug datos gikan sa mga hulagway ug isagol kini sa pinulongan aron masabtan ug matuman ang mga sugo sa tawo.

MultiModal-GPT

Ang MultiModal-GPT usa ka matang sa modelo sa AI nga makasunod sa lain-laing mga pangutana sa tawo sama sa paghulagway sa mga biswal, pag-ihap sa mga butang, ug pagtubag sa mga pangutana. Nakasabut kini ug nagsunod sa mga mando gamit ang usa ka pagsagol sa biswal ug berbal nga datos.

Gibansay sa mga tigdukiduki ang modelo gamit ang biswal ug lengguwahe lamang nga datos aron madugangan ang kapasidad sa MultiModal-GPT sa pagpakigsulti sa mga tawo. Dugang pa, nagpahinabo kini ug talagsaong pag-uswag sa paagi sa pagpasundayag sa diskurso niini. Nagresulta usab kini sa usa ka mamatikdan nga pag-uswag sa pasundayag sa panag-istoryahanay.

Nadiskobrehan nila nga ang pagbaton ug taas nga kalidad nga datos sa pagbansay kritikal alang sa maayo nga pasundayag sa panag-istoryahanay, tungod kay ang usa ka gamay nga dataset nga adunay mugbo nga mga tubag mahimong makapahimo sa modelo sa paghimo og mas mubo nga mga tubag sa bisan unsang sugo.

Unsa ang Imong Mahimo sa MultiModal-GPT?

Pag-apil sa mga Panag-istoryahanay

Sama sa mga modelo sa pinulongan nga miabut kaniadto, usa sa mga nag-unang kinaiya sa MultiModal-GPT mao ang kapasidad niini sa pag-apil sa natural nga mga diskusyon sa pinulongan. Kini nagpasabot nga ang mga konsumedor mahimong makiglambigit sa modelo sama sa ilang buhaton sa usa ka tinuod nga tawo.

Pananglitan, ang MultiModal-GPT makahatag sa mga kostumer og detalyadong resipe sa paghimo og noodles o morekomendar ug posible nga mga restawran alang sa pagpangaon sa gawas. Ang modelo makahimo usab sa pagtubag sa mga pangkaraniwang pangutana bahin sa mga katuyoan sa pagbiyahe sa mga tiggamit.

Mga Noodles

Pag-ila sa mga Butang

Ang MultiModal-GPT makaila sa mga butang sa mga litrato ug makatubag sa mga pangutana bahin niini. Pananglitan, ang modelo makaila kang Freddie Mercury sa usa ka hulagway ug makatubag sa mga pangutana bahin kaniya.

Mahimo usab nga maihap ang gidaghanon sa mga indibidwal ug ipasabut kung unsa ang ilang gibuhat sa usa ka litrato. Kini nga kapasidad sa pag-ila sa butang adunay mga aplikasyon sa lainlaing mga natad, lakip ang e-commerce, pag-atiman sa panglawas, ug seguridad.

Panig-ingnan

Ang MultiModal-GPT makaila usab sa teksto sulod sa digital nga mga hulagway. Kini nagpasabot nga ang modelo makabasa sa teksto sa mga litrato ug makakuha sa mapuslanong datos. Mahimo kini, pananglitan, makamatikod sa mga karakter sa usa ka imahe ug makaila sa tagsulat sa usa ka libro.

Kini usa ka labi ka mapuslanon nga himan alang sa pagdumala sa dokumento, data input, ug pagtuki sa sulod.

Gandalf

Pangatarungan ug Pagmugna sa Kahibalo

Ang multi-modal-GPT makapangatarungan ug makapatunghag kahibalo bahin sa kalibotan. Nagpasabot kini nga makahatag kini og bug-os nga pagpatin-aw sa mga litrato ug gani isulti kanila kung unsang panahona gikuha ang imahe.

Kini nga kahanas mapuslanon sa lainlaing mga disiplina, lakip ang pag-monitor sa kinaiyahan, agrikultura, ug meteorolohiya. Ang modelo mahimo usab nga makamugna og mamugnaon nga mga butang sama sa mga balak, mga sugilanon, ug mga kanta, nga naghimo niini nga usa ka maayo kaayo nga himan alang sa mga buluhaton sa paglalang.

Inner Works sa MultiModal-GPT

Template para sa Unified Instructions

Ang team nagpresentar ug usa ka template para sa paghiusa sa unimodal linguistic data ug multimodal vision-and-language data para sa hustong pagbansay sa MultiModal-GPT model sa usa ka synergistic nga paagi.

Kining hiniusa nga estratehiya misulay sa pagpauswag sa pasundayag sa modelo sa lain-laing mga buluhaton pinaagi sa pagpahimulos sa mga komplementaryong kapabilidad sa duha ka data modalidad ug pagdasig sa mas lawom nga pagsabot sa nagpahiping mga ideya.

Ang Dolly 15k ug Alpaca GPT4 datasets gigamit sa team aron sukdon ang mga abilidad sa pagsunod sa pagtudlo sa pinulongan. Kini nga mga dataset naglihok isip usa ka dali nga template alang sa pag-istruktura sa pag-input sa dataset aron magarantiya ang usa ka makanunayon nga pagsunod sa instruksiyon nga format.

Dolly 15k Dataset Overview

Hulagway: Overview sa Doly 15k dataset

Giunsa ang Pagtrabaho sa Modelo?

Tulo ka importanteng sangkap ang naglangkob sa MultiModal-GPT nga modelo: usa ka language decoder, usa ka perceiver resampler, ug usa ka vision encoder. Ang hulagway gikuha sa encoder sa panan-awon, nga nagmugna og usa ka koleksyon sa mga kinaiya nga nagpaila niini.

Ang language decoder naggamit sa impormasyon gikan sa vision encoder sa paghimo og teksto nga naghulagway sa hulagway uban sa tabang sa perceiver resampler.

Ang component sa modelo nga nakasabut sa pinulongan ug naghimo sa teksto mao ang language decoder. Aron matagna ang mosunod nga pulong sa usa ka hugpong sa mga pulong, ang modelo gibansay gamit ang duha nga sinultian-lamang ug panan-awon-dugang nga panudlo sa sinultian nga nagsunod nga datos.

Gitudloan niini ang modelo kung unsaon pagtubag sa mga mando gikan sa mga tawo ug naghatag sa madawat nga teksto alang sa mga paghulagway sa litrato.

modelo

Team Sa luyo

Ang MultiModal-GPT gimugna sa usa ka grupo sa mga tigdukiduki ug mga inhenyero sa Microsoft Research Asia nga gipangulohan ni Tao Gong, Chengqi Lyu, ug Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, ug Kai Chen tanan nakatampo sa pagtuon ug pagpalambo sa modelo.

Natural nga pagproseso sa pinulongan, computer vision, ug ang pagkat-on sa makina mao ang tanan nga mga bahin sa katakus alang sa team. Adunay sila daghang mga artikulo nga gipatik sa mga top-tier nga komperensya ug mga publikasyon, ingon man ang lainlaing mga pasidungog ug pagdayeg alang sa ilang mga paningkamot sa siyensya.

Ang panukiduki sa grupo nagpunting sa pag-uswag sa mga modelo ug mga pamaagi sa pagputol aron mahimo ang labi ka natural ug intelihente nga mga interaksyon tali sa mga tawo ug teknolohiya.

Ang pagpalambo sa multi-modal-GPT usa ka talagsaon nga kalampusan sa natad tungod kay usa kini sa mga unang modelo nga naghiusa sa panan-awon ug pinulongan sa usa ka gambalay alang sa multi-round nga diskusyon.

Ang mga kontribusyon sa team sa MultiModal-GPT research ug development adunay potensyal nga adunay dakong impluwensya sa kaugmaon sa natural nga pagproseso sa pinulongan ug human-machine interactions.

Giunsa Paggamit ang MultiModal-GPT

Alang sa mga nagsugod, ang paggamit sa MultiModal-GPT nga himan yano ra. Adto lang sa https://mmgpt.openmmlab.org.cn/ ug i-press ang "Upload Image" nga buton.

Pilia ang picture file nga i-upload, ug dayon i-type ang text prompt ngadto sa text field. Aron makahimo usa ka tubag gikan sa modelo, i-klik ang "Isumite" nga buton, nga makita sa ilawom sa natad sa teksto.

Mahimo kang mag-eksperimento sa lain-laing mga litrato ug mga instruksyon aron makat-on og dugang mahitungod sa mga kapabilidad sa modelo.

Interface 1

pagbutang

Aron ma-install ang MultiModal-GPT nga pakete, gamita ang terminal command "git clone https://github.com/open-mmlab/Multimodal-GPT.git" aron ma-clone ang repository gikan sa GitHub. Mahimo nimong sundon kini nga mga lakang:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Sa laing paagi, gamita conda env create -f environment.yml sa pag-establisar og bag-ong conda environment. Mahimo nimong ipadagan ang demo sa lokal nga paagi pagkahuman ma-install kini pinaagi sa pag-download sa nabansay na nga mga gibug-aton ug itago kini sa folder sa mga checkpoint.

Ang Gradio demo mahimo unya nga ilunsad pinaagi sa pagpadagan sa command "python app.py".

Potensyal nga mga Kakulian

Ang MultiModal-GPT nga modelo aduna gihapoy mga depekto ug luna alang sa kalamboan bisan pa sa maayo kaayong performance niini.

Pananglitan, kung mag-atubang sa komplikado o dili klaro nga mga visual input, ang modelo mahimong dili kanunay makaila ug makasabut sa konteksto sa input. Mahimong moresulta kini sa dili tukma nga mga panagna o reaksyon gikan sa modelo.

Dugang pa, ilabi na kung ang input komplikado o bukas, ang modelo mahimong dili kanunay makahimo sa labing maayo nga reaksyon o resulta. Ang tubag sa modelo, pananglitan, mahimong naapektuhan sa kung unsa ka parehas ang hitsura sa mga hapin sa duha ka libro sa kaso sa sayup nga pag-ila sa usa ka hapin sa libro.

Panapos

Sa kinatibuk-an, ang MultiModal-GPT nga modelo nagrepresentar sa usa ka dako nga lakang sa unahan sa natural nga pagproseso sa pinulongan ug pagkat-on sa makina. Ug, kulbahinam kaayo ang paggamit niini ug pag-eksperimento niini. Busa, kinahanglan nimong sulayan usab kini!

Bisan pa, kini adunay mga limitasyon, sama sa tanan nga mga modelo, ug nanginahanglan dugang nga pagpino ug pagpaayo aron makuha ang labing kadaghan nga pasundayag sa lainlaing mga aplikasyon ug mga dominyo.