MultiModal-GPT: Wates Anyar dina Basa sareng Pamaduan Visi

Naha anjeun kantos ngaharepkeun anjeun tiasa ngobrol sareng AI anu ngartos data lisan sareng visual? Paradigma MultiModal-GPT ngagabungkeun ngolah basa sareng pamahaman visual.

Éta nawiskeun kamungkinan interaksi manusa-komputer anu akurat sareng beragam. MultiModal-GPT bisa nyadiakeun captions deskriptif, cacah item individu, sarta ngabales patarosan pamaké umum.

Tapi, kumaha carana ngalakukeun éta? Na, naon anjeun tiasa ngalakukeun kalawan MultiModal-GPT?

Hayu urang nyandak carita ka awal jeung ngarti kemungkinan di hareup urang.

Kalayan munculna modél basa sapertos GPT-4, téknologi ngolah basa alami nyaksian révolusi. Inovasi sapertos ChatGPT parantos dilebetkeun kana kahirupan urang.

Na, aranjeunna sigana terus datang!

GPT-4 sareng Watesanna

GPT-4 parantos nunjukkeun kamampuan luar biasa dina paguneman multimodal sareng jalma. Studi geus nyieun usaha pikeun duplikat kinerja ieu, tapi kusabab jumlah berpotensi luhur tokens gambar, kaasup model jeung informasi visual tepat bisa jadi mahal komputasi.

Modél nu aya ogé teu kaasup tuning instruksi basa dina pangajaran maranéhna, nu ngawatesan kamampuhan maranéhna pikeun ilubiung dina enol-shot multiturn paguneman gambar-téks.

Ngawangun Kana Flamingo Framework

Modél anyar anu disebut MultiModal-GPT dikembangkeun pikeun ngaktipkeun komunikasi sareng jalma-jalma anu ngagunakeun isyarat linguistik sareng visual.

Pamekar padamelan program anu disebut kerangka Flamingo, nu saméméhna dilatih pikeun ngarti duanana téks na visuals, sangkan ieu meujeuhna.

Kerangka Flamingo

Flamingo peryogi sababaraha parobihan, sanaos, sabab éta henteu tiasa ngalegaan dialog anu kalebet téks sareng visual.

Modél MultiModal-GPT anu diropéa tiasa ngumpulkeun data tina gambar sareng nyampur sareng basa pikeun ngartos sareng ngalaksanakeun paréntah manusa.

MultiModal-GPT

MultiModal-GPT mangrupikeun jinis modél AI anu tiasa nuturkeun sababaraha patarosan manusa sapertos ngajéntrékeun visual, ngitung barang, sareng ngawalon patarosan. Éta ngartos sareng nuturkeun pesenan nganggo campuran data visual sareng verbal.

Panaliti ngalatih modél ngagunakeun data visual sareng ngan ukur basa pikeun ningkatkeun kapasitas MultiModal-GPT pikeun ngobrol sareng jalma. Salaku tambahan, éta nyababkeun paningkatan anu nyata dina cara pidatona. Éta ogé nyababkeun paningkatan anu nyata dina pagelaran pagunemanna.

Aranjeunna mendakan yén gaduh data latihan kualitas luhur penting pisan pikeun pagelaran paguneman anu saé, sabab set data leutik sareng réspon pondok tiasa ngamungkinkeun modél nyiptakeun réspon anu langkung pondok pikeun paréntah naon waé.

Naon anu anjeun tiasa laksanakeun sareng MultiModal-GPT?

Kalibet dina Paguneman

Sapertos modél basa anu aya sateuacanna, salah sahiji ciri utami MultiModal-GPT nyaéta kamampuan pikeun ngiringan diskusi basa alami. Ieu nunjukkeun yén konsumén tiasa kalibet sareng modél sapertos aranjeunna sareng jalma nyata.

Contona, MultiModal-GPT tiasa masihan konsumén resep lengkep pikeun mie atawa nyarankeun mungkin réstoran pikeun dining kaluar. Modél ieu ogé sanggup ngaréspon patarosan umum ngeunaan niat perjalanan pangguna.

Pangakuan objék

MultiModal-GPT tiasa mikawanoh hal-hal dina poto sareng ngabales patarosan ngeunaan éta. Salaku conto, modél tiasa mikawanoh Freddie Mercury dina gambar sareng ngabales patarosan ngeunaan anjeunna.

Éta ogé tiasa ngitung jumlah individu sareng ngajelaskeun naon anu aranjeunna lakukeun dina gambar. Kapasitas idéntifikasi objék ieu ngagaduhan aplikasi dina sababaraha widang, kalebet e-commerce, kasehatan, sareng kaamanan.

conto

MultiModal-GPT ogé bisa mikawanoh téks dina gambar digital. Ieu nunjukkeun yén modél tiasa maca téks dina poto sareng nimba data anu mangpaat. Bisa, contona, ngadeteksi karakter dina gambar jeung ngaidentipikasi panulis buku.

Ieu mangrupakeun alat pisan mangpaat pikeun manajemén dokumen, input data, jeung analisis eusi.

Gandalf

Nalar jeung Generasi Pangaweruh

Multi-modal-GPT tiasa nalar sareng ngahasilkeun pangaweruh ngeunaan dunya. Ieu hartosna tiasa masihan katerangan lengkep ngeunaan poto-poto sareng bahkan nyarioskeun ka aranjeunna usum naon gambar éta dicandak.

Kaahlian ieu mangpaat dina rupa-rupa disiplin, kalebet ngawaskeun lingkungan, tatanén, sareng météorologi. Modél ieu ogé tiasa ngahasilkeun barang kreatif sapertos puisi, dongéng, sareng lagu, ngajantenkeun alat anu saé pikeun tugas kreatif.

Gawé Batin MultiModal-GPT

Citakan pikeun Parentah Ngahijikeun Tatar

Tim nampilkeun template tunggal pikeun integrasi data linguistik unimodal sareng data visi-na-basa multimodal pikeun leres ngalatih modél MultiModal-GPT sacara sinergis.

Strategi gabungan ieu nyobian ningkatkeun kinerja modél dina sababaraha pancén ku cara ngamangpaatkeun kamampuan pelengkap duanana modalitas data sareng nyorong pamahaman anu langkung jero ngeunaan ideu dasar.

Setét Dolly 15k sareng Alpaca GPT4 dianggo ku tim pikeun ngukur kamampuan anu nuturkeun instruksi basa wungkul. Dataset ieu tindakan minangka témplat ajakan pikeun ngastrukturkeun input dataset pikeun ngajamin format nurutan instruksi anu konsisten.

Dolly 15k Dataset Ihtisar

Gambar: Ihtisar kumpulan data Doly 15k

Kumaha Dupi Model Gawé?

Tilu komponén konci ngawangun modél MultiModal-GPT: decoder basa, resampler perceiver, sareng encoder visi. Gambar dicandak ku encoder visi, anu teras ngahasilkeun koleksi ciri anu ngacirikeunana.

The decoder basa ngagunakeun informasi ti vision encoder pikeun nyieun téks nu ngajelaskeun gambar kalawan bantuan perceiver resampler.

Komponén modél anu maham basa jeung ngahasilkeun téks nyaéta dékoder basa. Pikeun ngaduga kecap di handap dina hiji frase, modél ieu dilatih ngagunakeun duanana basa-hijina tur visi-plus basa instruksi-handap data.

Ieu ngajarkeun modél kumaha carana ngaréaksikeun paréntah ti manusa sareng nyayogikeun téks anu tiasa ditampi pikeun déskripsi gambar.

model

Tim Tukangeun

MultiModal-GPT diciptakeun ku tim peneliti sareng insinyur Microsoft Research Asia anu dipimpin ku Tao Gong, Chengqi Lyu, sareng Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, sareng Kai Chen sadayana nyumbang kana pangajaran sareng pamekaran modél.

Ngolah basa alami, visi komputer, sareng pembelajaran mesin mangrupikeun sagala bidang kompetensi pikeun tim. Aranjeunna gaduh sababaraha tulisan anu diterbitkeun dina konperénsi sareng publikasi tingkat luhur, ogé sababaraha penghargaan sareng penghargaan pikeun usaha ilmiahna.

Panaliti tim fokus kana pamekaran modél sareng pendekatan anu canggih pikeun ngaktifkeun interaksi anu langkung alami sareng cerdas antara manusa sareng téknologi.

Pangwangunan multi-modal-GPT mangrupakeun prestasi noteworthy di sawah saprak éta salah sahiji model munggaran pikeun ngagabungkeun visi jeung basa dina kerangka tunggal pikeun sawala multi-buleud.

Kontribusi tim pikeun panalungtikan sareng pamekaran MultiModal-GPT berpotensi gaduh pangaruh anu ageung dina masa depan ngolah basa alami sareng interaksi manusa-mesin.

Kumaha Paké MultiModal-GPT

Pikeun pamula, ngagunakeun alat MultiModal-GPT saderhana. Kantun buka https://mmgpt.openmmlab.org.cn/ tur pencét tombol "Unggah Gambar".

Pilih file gambar anu badé diunggah, teras ketik ajakan téks kana widang téks. Pikeun nyieun respon ti model, klik tombol "Kirim", nu bakal muncul di handap widang téks.

Anjeun tiasa ékspérimén sareng poto sareng petunjuk anu béda pikeun diajar langkung seueur ngeunaan kamampuan modél.

Antarbeungeut 1

Masang

Pikeun masang pakét MultiModal-GPT, paké paréntah terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" pikeun ngakloning gudang ti GitHub. Anjeun ngan saukur tiasa nuturkeun léngkah ieu:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternatipna, ngagunakeun conda env create -f environment.yml pikeun ngadegkeun lingkungan conda anyar. Anjeun tiasa ngajalankeun demo sacara lokal saatos dipasang ku cara ngaunduh timbangan anu tos dilatih sareng simpen dina folder pamariksaan.

Demo Gradio teras tiasa diluncurkeun ku ngajalankeun paréntah "python app.py".

Poténsi drawbacks

Modél MultiModal-GPT masih gaduh cacad sareng rohangan pikeun pangwangunan sanaos kinerja anu saé.

Contona, nalika nungkulan input visual pajeulit atawa ambigu, model bisa jadi teu salawasna bisa mikawanoh tur ngarti konteks input. Ieu tiasa nyababkeun prediksi atanapi réaksi anu teu akurat tina modél.

Sajaba ti, utamana lamun input pajeulit atawa kabuka-réngsé, modél bisa jadi teu salawasna ngahasilkeun réaksi atawa hasil pangalusna. Jawaban modél, contona, tiasa dipangaruhan ku kumaha mirip dua panutup buku dina kasus idéntifikasi anu salah tina panutup buku.

kacindekan

Gemblengna, modél MultiModal-GPT ngagambarkeun léngkah anu ageung dina ngolah basa alami sareng diajar mesin. Na, éta pisan seru ngagunakeun éta sarta ékspérimén kalawan eta. Janten, anjeun kedah nyobian ogé!

Sanajan kitu, eta boga wates, sakumaha ogé sagala model, sarta merlukeun pemurnian tambahan sarta enhancement pikeun ménta kinerja maksimum dina rupa-rupa aplikasi tur domain.