MultiModal-GPT: Isang Bagong Frontier sa Pagsasama ng Wika at Paningin

Nais mo na bang makipag-usap sa isang AI na nakakaunawa sa parehong pasalita at visual na data? Pinagsasama ng MultiModal-GPT paradigm ang pagpoproseso ng wika sa visual na pag-unawa.

Nag-aalok ito ng posibilidad ng tumpak at sari-sari na pakikipag-ugnayan ng tao-computer. MultiModal-GPT maaaring magbigay ng mga mapaglarawang caption, magbilang ng mga indibidwal na item, at tumugon sa mga pangkalahatang tanong ng user.

Ngunit, paano nito ginagawa iyon? At, ano ang maaari mong gawin sa MultiModal-GPT?

Dalhin natin ang kuwento sa simula at unawain ang mga posibilidad sa hinaharap.

Sa paglitaw ng mga modelo ng wika tulad ng GPT-4, ang mga natural na teknolohiya sa pagproseso ng wika ay sumasaksi sa isang rebolusyon. Ang mga inobasyon tulad ng ChatGPT ay naisama na sa ating buhay.

At, mukhang patuloy silang darating!

GPT-4 at ang mga Limitasyon nito

Ang GPT-4 ay nagpakita ng kamangha-manghang kahusayan sa mga multimodal na pag-uusap sa mga tao. Ang mga pag-aaral ay nagsikap na i-duplicate ang pagganap na ito, ngunit dahil sa potensyal na mataas na bilang ng mga token ng larawan, kabilang ang mga modelo na may tumpak na visual na impormasyon ay maaaring magastos sa computation.

Hindi rin kasama sa mga kasalukuyang modelo ang pag-tune ng pagtuturo ng wika sa kanilang pag-aaral, na naghihigpit sa kanilang kakayahang lumahok sa mga zero-shot na multiturn image-text na pag-uusap.

Pagbuo sa Framework ng Flamingo

Ang isang bagong modelo na tinatawag na MultiModal-GPT ay binuo upang paganahin ang komunikasyon sa mga tao gamit ang parehong linguistic at visual na mga pahiwatig.

Gumamit ang mga developer ng isang programa na tinatawag na Flamingo framework, na dating sinanay upang maunawaan ang parehong teksto at visual, upang gawin itong magagawa.

Flamingo Framework

Ang Flamingo ay nangangailangan ng ilang mga pagbabago, gayunpaman, dahil hindi nito nagawang magkaroon ng mga pinahabang diyalogo na may kasamang teksto at mga visual.

Ang na-update na MultiModal-GPT na modelo ay maaaring mangalap ng data mula sa mga larawan at ihalo ito sa wika upang maunawaan at maisagawa ang mga utos ng tao.

MultiModal-GPT

Ang MultiModal-GPT ay isang uri ng modelo ng AI na maaaring sundin ang iba't ibang mga katanungan ng tao tulad ng paglalarawan ng mga visual, pagbibilang ng mga item, at pagsagot sa mga tanong. Naiintindihan at sinusunod nito ang mga utos gamit ang pinaghalong visual at verbal na data.

Sinanay ng mga mananaliksik ang modelo gamit ang parehong visual at language-only na data upang mapataas ang kapasidad ng MultiModal-GPT na makipag-usap sa mga tao. Bukod pa rito, nagdulot ito ng kapansin-pansing pagpapabuti sa paraan ng pagganap ng diskurso nito. Nagresulta din ito sa isang kapansin-pansing pagpapabuti sa pagganap ng pag-uusap nito.

Natuklasan nila na ang pagkakaroon ng mataas na kalidad na data ng pagsasanay ay kritikal para sa mahusay na pagganap ng pag-uusap, dahil ang isang maliit na dataset na may maiikling tugon ay maaaring magbigay-daan sa modelo na lumikha ng mas maikling mga tugon sa anumang command.

Ano ang Magagawa Mo Sa MultiModal-GPT?

Pakikipag-usap

Tulad ng mga modelo ng wika na nauna, ang isa sa mga pangunahing katangian ng MultiModal-GPT ay ang kakayahang makisali sa mga natural na talakayan sa wika. Ito ay nagpapahiwatig na ang mga mamimili ay maaaring makipag-ugnayan sa modelo tulad ng gagawin nila sa isang tunay na tao.

Halimbawa, ang MultiModal-GPT ay maaaring magbigay sa mga customer ng isang detalyadong recipe para sa paggawa ng noodles o magrekomenda ng mga posibleng restaurant para sa kainan sa labas. May kakayahan din ang modelo na tumugon sa mga pangkalahatang tanong tungkol sa mga intensyon sa biyahe ng mga user.

Mga bihon

Pagkilala sa mga Bagay

Maaaring makilala ng MultiModal-GPT ang mga bagay sa mga larawan at tumugon sa mga katanungan tungkol sa mga ito. Halimbawa, makikilala ng modelo si Freddie Mercury sa isang larawan at tumugon sa mga tanong tungkol sa kanya.

Maaari din nitong bilangin ang bilang ng mga indibidwal at ipaliwanag kung ano ang kanilang ginagawa sa isang larawan. Ang kapasidad ng pagkakakilanlan ng bagay na ito ay may mga aplikasyon sa iba't ibang larangan, kabilang ang e-commerce, pangangalagang pangkalusugan, at seguridad.

halimbawa

Maaari ding makilala ng MultiModal-GPT ang teksto sa loob ng mga digital na larawan. Ito ay nagpapahiwatig na ang modelo ay maaaring basahin ang teksto sa mga larawan at kumuha ng kapaki-pakinabang na data. Halimbawa, maaari nitong makita ang mga character sa isang imahe at makilala ang may-akda ng isang libro.

Ito ay isang lubhang kapaki-pakinabang na tool para sa pamamahala ng dokumento, data input, at pagsusuri ng nilalaman.

Gandalf

Pangangatwiran at Pagbuo ng Kaalaman

Ang multi-modal-GPT ay maaaring mangatuwiran at makagawa ng kaalaman tungkol sa mundo. Nangangahulugan ito na makakapagbigay ito ng buong paliwanag ng mga larawan at kahit na sabihin sa kanila kung anong season kinuha ang larawan.

Ang kasanayang ito ay kapaki-pakinabang sa iba't ibang mga disiplina, kabilang ang pagsubaybay sa kapaligiran, agrikultura, at meteorolohiya. Ang modelo ay maaari ring makabuo ng mga malikhaing bagay tulad ng tula, kwento, at kanta, na ginagawa itong isang mahusay na tool para sa mga malikhaing gawain.

Panloob na Paggawa ng MultiModal-GPT

Template para sa Pinag-isang Mga Tagubilin

Nagpapakita ang team ng isang template para sa pagsasama ng unimodal linguistic data at multimodal vision-and-language data para maayos na sanayin ang MultiModal-GPT model sa isang synergistic na paraan.

Sinusubukan ng pinagsamang diskarte na ito na pahusayin ang pagganap ng modelo sa iba't ibang gawain sa pamamagitan ng pagsasamantala sa mga pantulong na kakayahan ng parehong data modalities at paghikayat ng mas malalim na pag-unawa sa mga pinagbabatayan na ideya.

Ang mga dataset ng Dolly 15k at Alpaca GPT4 ay ginagamit ng team para sukatin ang mga kakayahan sa pagsunod sa pagtuturo sa wika lamang. Ang mga dataset na ito ay gumaganap bilang isang prompt na template para sa pag-istruktura ng dataset input upang magarantiya ang isang pare-parehong format na sumusunod sa pagtuturo.

Pangkalahatang-ideya ng Dolly 15k Dataset

Larawan: Pangkalahatang-ideya ng Doly 15k dataset

Paano Gumagana ang Modelo?

Tatlong pangunahing bahagi ang bumubuo sa modelong MultiModal-GPT: isang language decoder, isang perceiver resampler, at isang vision encoder. Ang imahe ay kinuha sa pamamagitan ng vision encoder, na pagkatapos ay bumubuo ng isang koleksyon ng mga katangian na nagpapakilala dito.

Ginagamit ng language decoder ang impormasyon mula sa vision encoder para gumawa ng text na naglalarawan sa larawan sa tulong ng perceiver resampler.

Ang bahagi ng modelo na nakakaintindi ng wika at gumagawa ng teksto ay ang language decoder. Upang mahulaan ang sumusunod na salita sa isang parirala, ang modelo ay sinanay gamit ang parehong data na sumusunod sa pagtuturo ng wika at pangitain kasama ang pagtuturo ng wika.

Itinuturo nito ang modelo kung paano tumugon sa mga utos mula sa mga tao at nagbibigay ng katanggap-tanggap na teksto para sa mga paglalarawan ng larawan.

modelo

Koponan sa Likod

Ang MultiModal-GPT ay nilikha ng isang pangkat ng mga mananaliksik at inhinyero ng Microsoft Research Asia na pinamumunuan nina Tao Gong, Chengqi Lyu, at Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, at Kai Chen lahat ay nag-ambag sa pag-aaral at pag-unlad ng modelo.

natural na pagproseso ng wika, computer vision, at machine learning ay lahat ng mga lugar ng kakayahan para sa koponan. Mayroon silang ilang mga artikulo na inilathala sa mga nangungunang kumperensya at publikasyon, pati na rin ang iba't ibang mga parangal at parangal para sa kanilang mga pagsisikap na siyentipiko.

Nakatuon ang pananaliksik ng koponan sa pagbuo ng mga makabagong modelo at diskarte upang paganahin ang mas natural at matalinong pakikipag-ugnayan sa pagitan ng mga tao at teknolohiya.

Ang multi-modal-GPT development ay isang kapansin-pansing tagumpay sa larangan dahil ito ay isa sa mga unang modelo upang pagsamahin ang paningin at wika sa isang solong balangkas para sa multi-round na talakayan.

Ang mga kontribusyon ng koponan sa pananaliksik at pagpapaunlad ng MultiModal-GPT ay may potensyal na magkaroon ng malaking impluwensya sa kinabukasan ng natural na pagproseso ng wika at pakikipag-ugnayan ng tao-machine.

Paano Gamitin ang MultiModal-GPT

Para sa mga nagsisimula, ang paggamit ng MultiModal-GPT tool ay simple. Pumunta lang sa https://mmgpt.openmmlab.org.cn/ at pindutin ang pindutang "Mag-upload ng Larawan".

Piliin ang picture file na ia-upload, at pagkatapos ay i-type ang text prompt sa text field. Upang lumikha ng tugon mula sa modelo, i-click ang pindutang "Isumite", na lilitaw sa ibaba ng field ng teksto.

Maaari kang mag-eksperimento sa iba't ibang mga larawan at mga tagubilin upang matuto nang higit pa tungkol sa mga kakayahan ng modelo.

Interface 1

Pag-install

Para i-install ang MultiModal-GPT package, gamitin ang terminal command na “git clone https://github.com/open-mmlab/Multimodal-GPT.git” para i-clone ang repository mula sa GitHub. Maaari mo lamang sundin ang mga hakbang na ito:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Bilang kahalili, gamitin conda env create -f environment.yml para magtatag ng bagong conda environment. Maaari mong patakbuhin ang demo nang lokal pagkatapos i-install ito sa pamamagitan ng pag-download ng pre-trained na mga timbang at pag-iimbak ng mga ito sa folder ng mga checkpoint.

Maaaring ilunsad ang Gradio demo sa pamamagitan ng pagpapatakbo ng command na “python app.py”.

Mga Potensyal na Kakulangan

Ang modelong MultiModal-GPT ay mayroon pa ring mga depekto at puwang para sa pag-unlad sa kabila ng mahusay na pagganap nito.

Halimbawa, kapag nakikitungo sa kumplikado o hindi maliwanag na visual input, maaaring hindi palaging makilala at maunawaan ng modelo ang konteksto ng input. Maaari itong magresulta sa mga hindi tumpak na hula o reaksyon mula sa modelo.

Bukod pa rito, lalo na kapag ang input ay kumplikado o open-ended, ang modelo ay maaaring hindi palaging makagawa ng pinakamahusay na reaksyon o resulta. Ang sagot ng modelo, halimbawa, ay maaaring naapektuhan ng kung gaano kapareho ang hitsura ng mga pabalat ng dalawang aklat sa kaso ng maling pagkakakilanlan ng isang pabalat ng aklat.

Konklusyon

Sa pangkalahatan, ang modelong MultiModal-GPT ay kumakatawan sa isang malaking hakbang pasulong sa natural na pagpoproseso ng wika at machine learning. At, ito ay lubhang kapana-panabik na gamitin ito at mag-eksperimento dito. Kaya, dapat mo ring subukan ito!

Gayunpaman, mayroon itong mga limitasyon, tulad ng lahat ng mga modelo, at nangangailangan ng karagdagang pagpino at pagpapahusay upang makakuha ng maximum na pagganap sa iba't ibang mga application at domain.