MultiModal-GPT: Perbatasan Baru dalam Integrasi Bahasa dan Visi

Pernahkah Anda berharap dapat berkomunikasi dengan AI yang memahami data lisan dan visual? Paradigma MultiModal-GPT menggabungkan pemrosesan bahasa dengan pemahaman visual.

Ini menawarkan kemungkinan interaksi manusia-komputer yang akurat dan beragam. MultiModal-GPT dapat memberikan keterangan deskriptif, menghitung setiap item, dan menjawab pertanyaan umum pengguna.

Tapi, bagaimana cara melakukannya? Dan, apa yang dapat Anda lakukan dengan MultiModal-GPT?

Mari kita bawa ceritanya ke awal dan pahami kemungkinan yang ada di depan kita.

Dengan munculnya model bahasa seperti GPT-4, teknologi pemrosesan bahasa alami menyaksikan sebuah revolusi. Inovasi seperti ChatGPT telah dimasukkan ke dalam kehidupan kita.

Dan, mereka tampaknya terus datang!

GPT-4 dan Keterbatasannya

GPT-4 telah menunjukkan kemahiran luar biasa dalam percakapan multimoda dengan orang-orang. Studi telah berupaya untuk menduplikasi kinerja ini, tetapi karena jumlah token gambar yang berpotensi tinggi, termasuk model dengan informasi visual yang akurat dapat menjadi mahal secara komputasi.

Model yang ada juga tidak menyertakan penyetelan instruksi bahasa dalam studi mereka, yang membatasi kemampuan mereka untuk berpartisipasi dalam percakapan gambar-teks multiturn zero-shot.

Membangun Di Atas Kerangka Flamingo

Model baru yang disebut MultiModal-GPT dikembangkan untuk memungkinkan komunikasi dengan orang-orang menggunakan isyarat linguistik dan visual.

Pengembang menggunakan program yang disebut kerangka Flamingo, yang sebelumnya dilatih untuk memahami teks dan visual, untuk membuatnya layak.

Kerangka Flamingo

Flamingo membutuhkan beberapa perubahan, karena tidak dapat memperluas dialog yang menyertakan teks dan visual.

Model MultiModal-GPT yang diperbarui dapat mengumpulkan data dari gambar dan menggabungkannya dengan bahasa untuk memahami dan menjalankan perintah manusia.

MultiModal-GPT

MultiModal-GPT adalah jenis model AI yang dapat mengikuti berbagai pertanyaan manusia seperti mendeskripsikan visual, menghitung item, dan menjawab pertanyaan. Ia memahami dan mengikuti perintah menggunakan campuran data visual dan verbal.

Peneliti melatih model menggunakan data visual dan hanya bahasa untuk meningkatkan kapasitas MultiModal-GPT untuk berkomunikasi dengan orang. Selain itu, hal itu menyebabkan peningkatan yang nyata dalam cara penyampaian wacananya. Itu juga menghasilkan peningkatan nyata dalam kinerja percakapannya.

Mereka menemukan bahwa memiliki data pelatihan berkualitas tinggi sangat penting untuk kinerja percakapan yang baik, karena kumpulan data kecil dengan respons singkat memungkinkan model membuat respons yang lebih singkat terhadap perintah apa pun.

Apa Yang Dapat Anda Lakukan Dengan MultiModal-GPT?

Terlibat dalam Percakapan

Seperti model bahasa sebelumnya, salah satu karakteristik utama MultiModal-GPT adalah kemampuannya untuk terlibat dalam diskusi bahasa alami. Ini menyiratkan bahwa konsumen dapat terlibat dengan model seperti yang mereka lakukan dengan orang sungguhan.

Misalnya, MultiModal-GPT dapat memberi pelanggan resep mendetail untuk membuat mie atau merekomendasikan restoran yang memungkinkan untuk bersantap di luar. Model ini juga mampu menjawab pertanyaan umum tentang niat perjalanan pengguna.

Mie

Pengakuan Objek

MultiModal-GPT dapat mengenali hal-hal di foto dan menanggapi pertanyaan tentangnya. Misalnya, model dapat mengenali Freddie Mercury dalam sebuah gambar dan menjawab pertanyaan tentangnya.

Itu juga dapat menghitung jumlah individu dan menjelaskan apa yang mereka lakukan dalam sebuah gambar. Kapasitas identifikasi objek ini memiliki aplikasi di berbagai bidang, termasuk e-commerce, layanan kesehatan, dan keamanan.

Contoh

MultiModal-GPT juga dapat mengenali teks di dalam gambar digital. Ini menyiratkan model dapat membaca teks dalam foto dan mengekstrak data yang berguna. Mungkin, misalnya, mendeteksi karakter dalam gambar dan mengidentifikasi penulis buku.

Ini adalah alat yang sangat berguna untuk manajemen dokumen, input data, dan analisis isi.

Gandalf

Penalaran dan Generasi Pengetahuan

Multi-modal-GPT dapat bernalar dan menghasilkan pengetahuan tentang dunia. Ini berarti dapat memberikan penjelasan lengkap tentang foto dan bahkan memberi tahu mereka pada musim apa gambar itu diambil.

Keterampilan ini berguna dalam berbagai disiplin ilmu, termasuk pemantauan lingkungan, pertanian, dan meteorologi. Model ini juga dapat menghasilkan hal-hal kreatif seperti puisi, dongeng, dan lagu, menjadikannya alat yang hebat untuk proyek kreatif.

Cara Kerja Bagian Dalam MultiModal-GPT

Templat untuk Petunjuk Terpadu

Tim menyajikan template tunggal untuk integrasi data linguistik unimodal dan data visi-dan-bahasa multimodal untuk melatih model MultiModal-GPT secara sinergis.

Strategi gabungan ini mencoba untuk meningkatkan kinerja model di berbagai tugas dengan mengeksploitasi kemampuan pelengkap dari kedua modalitas data dan mendorong pemahaman yang lebih dalam tentang ide-ide yang mendasarinya.

Kumpulan data Dolly 15k dan Alpaca GPT4 digunakan oleh tim untuk mengukur kemampuan mengikuti instruksi bahasa saja. Kumpulan data ini bertindak sebagai template cepat untuk menyusun input kumpulan data guna menjamin format mengikuti instruksi yang konsisten.

Ikhtisar Kumpulan Data Dolly 15k

Gambar: Gambaran umum kumpulan data Doly 15k

Bagaimana Model Bekerja?

Tiga komponen utama membentuk model MultiModal-GPT: decoder bahasa, resampler perseptor, dan encoder visi. Gambar tersebut diambil oleh vision encoder, yang kemudian menghasilkan kumpulan karakteristik yang mencirikannya.

Decoder bahasa menggunakan informasi dari vision encoder untuk membuat teks yang mendeskripsikan gambar dengan bantuan resampler penerima.

Komponen model yang memahami bahasa dan menghasilkan teks adalah decoder bahasa. Untuk memprediksi kata berikut dalam frasa, model dilatih menggunakan data yang mengikuti instruksi bahasa saja dan bahasa vision-plus.

Ini mengajarkan model bagaimana bereaksi terhadap perintah dari manusia dan menyediakan teks yang dapat diterima untuk deskripsi gambar.

Model

Tim Di Belakang

MultiModal-GPT dibuat oleh tim peneliti dan insinyur Microsoft Research Asia yang dipimpin oleh Tao Gong, Chengqi Lyu, dan Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, dan Kai Chen semuanya berkontribusi pada studi dan pengembangan model.

Pemrosesan bahasa alami, visi komputer, dan pembelajaran mesin adalah semua bidang kompetensi untuk tim. Mereka memiliki beberapa artikel yang diterbitkan di konferensi dan publikasi papan atas, serta berbagai penghargaan dan penghargaan atas upaya ilmiah mereka.

Penelitian tim berfokus pada pengembangan model dan pendekatan mutakhir untuk memungkinkan interaksi yang lebih alami dan cerdas antara manusia dan teknologi.

Pengembangan multi-modal-GPT adalah pencapaian penting di lapangan karena merupakan salah satu model pertama yang menggabungkan visi dan bahasa dalam satu kerangka kerja untuk diskusi multi-putaran.

Kontribusi tim untuk penelitian dan pengembangan MultiModal-GPT memiliki potensi untuk memberikan pengaruh besar pada masa depan pemrosesan bahasa alami dan interaksi manusia-mesin.

Cara Menggunakan MultiModal-GPT

Untuk pemula, menggunakan alat MultiModal-GPT itu sederhana. Cukup pergi ke https://mmgpt.openmmlab.org.cn/ dan tekan tombol "Unggah Gambar".

Pilih file gambar untuk diunggah, lalu ketik perintah teks ke dalam bidang teks. Untuk membuat respons dari model, klik tombol "Kirim", yang akan muncul di bawah kolom teks.

Anda dapat bereksperimen dengan berbagai foto dan petunjuk untuk mempelajari lebih lanjut tentang kemampuan model.

Antarmuka 1

Instalasi

Untuk menginstal paket MultiModal-GPT, gunakan perintah terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" untuk mengkloning repositori dari GitHub. Anda cukup mengikuti langkah-langkah ini:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Sebagai alternatif, gunakan conda env create -f environment.yml untuk membangun lingkungan conda baru. Anda dapat menjalankan demo secara lokal setelah menginstalnya dengan mengunduh bobot yang telah dilatih sebelumnya dan menyimpannya di folder pos pemeriksaan.

Demo Gradio kemudian dapat diluncurkan dengan menjalankan perintah "python app.py".

Potensi Kerugian

Model MultiModal-GPT masih memiliki kekurangan dan ruang untuk pengembangan meskipun kinerjanya sangat baik.

Misalnya, ketika berhadapan dengan masukan visual yang rumit atau ambigu, model mungkin tidak selalu dapat mengenali dan memahami konteks masukan tersebut. Hal ini dapat mengakibatkan prediksi atau reaksi yang tidak akurat dari model.

Selain itu, terutama ketika inputnya rumit atau terbuka, model tersebut mungkin tidak selalu menghasilkan reaksi atau hasil terbaik. Jawaban model, misalnya, mungkin dipengaruhi oleh seberapa mirip kedua sampul buku jika identifikasi sampul buku salah.

Kesimpulan

Secara keseluruhan, model MultiModal-GPT merupakan langkah maju yang besar dalam pemrosesan bahasa alami dan pembelajaran mesin. Dan, sangat menyenangkan untuk menggunakannya dan bereksperimen dengannya. Jadi, Anda juga harus mencobanya!

Namun, ini memiliki keterbatasan, seperti halnya semua model, dan membutuhkan penyempurnaan dan peningkatan tambahan untuk mendapatkan performa maksimum di berbagai aplikasi dan domain.