MultiModal-GPT: Frontier Anyar ing Integrasi Basa lan Visi

Apa sampeyan pengin bisa ngobrol karo AI sing ngerti data lisan lan visual? Paradigma MultiModal-GPT nggabungake pangolahan basa kanthi pangerten visual.

Nawakake kamungkinan interaksi manungsa-komputer sing akurat lan macem-macem. MultiModal-GPT bisa menehi katrangan deskriptif, ngetung item individu, lan mangsuli pitakon pangguna umum.

Nanging, kepiye carane? Lan, apa sampeyan bisa nindakake karo MultiModal-GPT?

Ayo dadi miwiti crita lan ngerti kemungkinan sing ana ing ngarep.

Kanthi munculé model basa kaya GPT-4, teknologi pangolahan basa alami nyekseni revolusi. Inovasi kaya ChatGPT wis digabung ing urip kita.

Lan, padha katon terus teka!

GPT-4 lan Watesan

GPT-4 wis nuduhake keahlian apik tenan ing obrolan multimodal karo wong. Pasinaon wis ngupayakake duplikat kinerja iki, nanging amarga jumlah token gambar sing akeh banget, kalebu model kanthi informasi visual sing tepat bisa larang kanthi komputasi.

Model sing ana uga ora kalebu tuning instruksi basa ing sinau, sing mbatesi kemampuan kanggo melu ing obrolan gambar-teks multiturn nul-shot.

Nggawe Framework Flamingo

Model anyar sing diarani MultiModal-GPT dikembangake kanggo ngaktifake komunikasi karo wong nggunakake isyarat linguistik lan visual.

Pangembang nggunakake program sing diarani kerangka flamingo, sing sadurunge dilatih kanggo mangerteni teks lan visual, supaya bisa ditindakake.

Kerangka Flamingo

Nanging, Flamingo mbutuhake sawetara owah-owahan, amarga ora bisa duwe dialog lengkap sing kalebu teks lan visual.

Model MultiModal-GPT sing dianyari bisa ngumpulake data saka gambar lan nyampur karo basa kanggo mangerteni lan nindakake prentah manungsa.

MultiModal-GPT

MultiModal-GPT minangka jinis model AI sing bisa ngetutake macem-macem pitakon manungsa kayata nggambarake visual, ngitung item, lan mangsuli pitakon. Iku ngerti lan nderek pesenan nggunakake campuran data visual lan lisan.

Peneliti nglatih model kasebut nggunakake data visual lan mung basa kanggo nambah kapasitas MultiModal-GPT kanggo ngobrol karo wong. Kajaba iku, iku njalari asil dandan katon ing cara wacana sawijining. Iku uga ngasilake asil dandan sing nyata ing kinerja obrolan.

Dheweke nemokake manawa duwe data latihan sing bermutu penting kanggo kinerja obrolan sing apik, amarga set data cilik kanthi respon sing cendhak bisa ngidini model nggawe tanggapan sing luwih cendhek kanggo prentah apa wae.

Apa Sampeyan Bisa Nggawe Kanthi MultiModal-GPT?

Melu Obrolan

Kaya model basa sing sadurunge, salah sawijining ciri utama MultiModal-GPT yaiku kapasitas kanggo melu diskusi basa alami. Iki nuduhake manawa konsumen bisa melu model kaya wong nyata.

Contone, MultiModal-GPT bisa menehi resep rinci kanggo nggawe mie utawa menehi rekomendasi restoran sing bisa dipangan. Model kasebut uga bisa mangsuli pitakon umum babagan tujuan perjalanan pangguna.

Mie

Pangenalan Obyek

MultiModal-GPT bisa ngerteni samubarang ing foto lan nanggapi pitakon babagan kasebut. Contone, model bisa ngenali Freddie Mercury ing gambar lan nanggapi pitakon babagan dheweke.

Uga bisa ngetung jumlah individu lan nerangake apa sing ditindakake ing gambar. Kapasitas identifikasi obyek iki nduweni aplikasi ing macem-macem lapangan, kalebu e-commerce, kesehatan, lan keamanan.

Conto

MultiModal-GPT uga bisa ngenali teks ing gambar digital. Iki tegese model bisa maca teks ing foto lan ngekstrak data sing migunani. Bisa uga, contone, ndeteksi karakter ing gambar lan ngenali penulis buku.

Iku alat banget migunani kanggo manajemen dokumen, input data, lan analisis isi.

Gandalf

Nalar lan Generasi Kawruh

Multi-modal-GPT bisa nalar lan ngasilake kawruh babagan donya. Iki tegese bisa menehi panjelasan lengkap babagan foto lan malah menehi katrangan babagan musim apa gambar kasebut dijupuk.

Katrampilan iki migunani ing macem-macem disiplin, kalebu pemantauan lingkungan, pertanian, lan meteorologi. Model kasebut uga bisa ngasilake barang kreatif kaya puisi, dongeng, lan lagu, dadi alat sing apik kanggo tugas kreatif.

Kerja Batin MultiModal-GPT

Cithakan kanggo Instructions Unified

Tim kasebut nyedhiyakake cithakan siji kanggo integrasi data linguistik unimodal lan data visi-lan-basa multimodal kanggo nglatih model MultiModal-GPT kanthi sinergis.

Strategi gabungan iki nyoba nambah kinerja model ing macem-macem tugas kanthi ngeksploitasi kemampuan pelengkap saka loro modalitas data lan nyengkuyung pemahaman sing luwih jero babagan gagasan dhasar.

Dhaptar data Dolly 15k lan Alpaca GPT4 digunakake dening tim kanggo ngukur kabisan ngetutake instruksi mung basa. Dhata data iki tumindak minangka cithakan cepet kanggo ngatur input dataset kanggo njamin format nderek instruksi sing konsisten.

Dolly 15k Dataset Ringkesan

Gambar: Ringkesan dataset Doly 15k

Kepiye Model Bisa?

Telung komponen utama nggawe model MultiModal-GPT: decoder basa, resampler perceiver, lan encoder visi. Gambar kasebut dijupuk dening encoder visi, sing banjur ngasilake koleksi karakteristik sing dadi ciri.

Dekoder basa nggunakake informasi saka encoder visi kanggo nggawe teks sing nggambarake gambar kanthi bantuan resampler perceiver.

Komponen modhel kang mangerteni basa lan ngasilake teks yaiku dekoder basa. Kanggo prédhiksi tembung ing ngisor iki ing sawijining frase, model kasebut dilatih nggunakake data mung basa lan visi-plus basa.

Iki mulang model carane nanggepi printah saka manungsa lan menehi teks ditrima kanggo gambaran gambar.

model

Tim mburi

MultiModal-GPT digawe dening tim peneliti lan insinyur Microsoft Research Asia sing dipimpin dening Tao Gong, Chengqi Lyu, lan Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, lan Kai Chen kabeh nyumbang kanggo sinau lan pangembangan model kasebut.

Pangolahan basa alam, wahyu komputer, lan machine learning iku kabeh area kompetensi kanggo tim. Dheweke duwe sawetara artikel sing diterbitake ing konferensi lan publikasi tingkat paling dhuwur, uga macem-macem penghargaan lan penghargaan kanggo upaya ilmiah.

Riset tim kasebut fokus ing pangembangan model lan pendekatan sing canggih kanggo ngaktifake interaksi sing luwih alami lan cerdas antarane manungsa lan teknologi.

Pangembangan multi-modal-GPT minangka prestasi sing penting ing lapangan amarga iki minangka salah sawijining model pisanan sing nggabungake visi lan basa ing kerangka siji kanggo diskusi multi-babak.

Kontribusi tim kanggo riset lan pangembangan MultiModal-GPT duweni potensi duwe pengaruh gedhe ing masa depan pangolahan basa alami lan interaksi manungsa-mesin.

Carane Gunakake MultiModal-GPT

Kanggo pamula, nggunakake alat MultiModal-GPT iku prasaja. Cukup menyang https://mmgpt.openmmlab.org.cn/ lan pencet tombol "Unggah Gambar".

Pilih file gambar sing arep diunggah, banjur ketik pituduh teks menyang kolom teks. Kanggo nggawe respon saka model, klik tombol "Kirim", sing bakal katon ing ngisor kolom teks.

Sampeyan bisa nyoba karo macem-macem foto lan instruksi kanggo mangerteni sing luwih lengkap babagan kapabilitas model.

Antarmuka 1

Nginstal

Kanggo nginstal paket MultiModal-GPT, gunakake perintah terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" kanggo clone repositori saka GitHub. Sampeyan mung bisa tindakake langkah iki:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Utawa, nggunakake conda env create -f environment.yml kanggo nggawe lingkungan conda anyar. Sampeyan bisa mbukak demo sacara lokal sawise nginstal kanthi ndownload bobot sing wis dilatih lan simpen ing folder checkpoints.

Tur Gradio banjur bisa diluncurake kanthi nglakokake printah "python app.py".

Potensi Kekurangan

Model MultiModal-GPT isih duwe cacat lan ruang kanggo pangembangan sanajan kinerja sing apik banget.

Contone, nalika nangani input visual sing rumit utawa ambigu, model kasebut bisa uga ora bisa ngerteni lan ngerti konteks input kasebut. Iki bisa nyebabake prediksi utawa reaksi sing ora akurat saka model kasebut.

Kajaba iku, utamane nalika input rumit utawa mbukak, model kasebut bisa uga ora mesthi ngasilake reaksi utawa asil sing paling apik. Jawaban model kasebut, umpamane, bisa uga kena pengaruh babagan kemiripan sampul buku loro ing kasus identifikasi tutup buku sing salah.

kesimpulan

Sakabèhé, model MultiModal-GPT nggambarake langkah gedhe ing proses pangolahan basa lan pembelajaran mesin. Lan, iku banget macem kanggo nggunakake lan eksprimen karo. Dadi, sampeyan uga kudu nyoba!

Nanging, ana watesan, kaya kabeh model, lan mbutuhake panyulingan lan penambahan tambahan kanggo entuk kinerja maksimal ing macem-macem aplikasi lan domain.