Dalam beberapa tahun terakhir, model pembelajaran mendalam menjadi lebih efektif dalam memahami bahasa manusia.
Pikirkan proyek seperti GPT-3, yang sekarang dapat membuat seluruh artikel dan situs web. GitHub baru-baru ini memperkenalkan Kopilot GitHub, layanan yang menyediakan seluruh cuplikan kode hanya dengan menjelaskan jenis kode yang Anda butuhkan.
Para peneliti di OpenAI, Facebook, dan Google telah mengerjakan cara untuk menggunakan pembelajaran mendalam untuk menangani tugas lain: memberi teks pada gambar. Menggunakan kumpulan data besar dengan jutaan entri, mereka telah menghasilkan beberapa mengherankan hasil.
Akhir-akhir ini, para peneliti ini mencoba melakukan tugas yang berlawanan: membuat gambar dari teks. Apakah sekarang mungkin untuk membuat gambar yang sama sekali baru dari deskripsi?
Panduan ini akan mengeksplorasi dua model teks-ke-gambar paling canggih: DALL-E 2 OpenAI dan Google Imagen AI. Masing-masing proyek ini telah memperkenalkan metode inovatif yang dapat mengubah masyarakat seperti yang kita kenal.
Tapi pertama-tama, mari kita pahami apa yang kita maksud dengan generasi teks-ke-gambar.
Apa yang dimaksud dengan generasi teks-ke-gambar?
Model teks-ke-gambar memungkinkan komputer untuk membuat gambar baru dan unik berdasarkan petunjuknya. Orang sekarang dapat memberikan deskripsi teks dari gambar yang ingin mereka hasilkan, dan model akan mencoba membuat visual yang sedekat mungkin dengan deskripsi itu.
Model pembelajaran mesin telah memanfaatkan penggunaan kumpulan data besar yang berisi pasangan teks-gambar untuk lebih meningkatkan kinerja.
Kebanyakan teks-ke-gambar model menggunakan model bahasa transformator untuk menginterpretasikan perintah. Jenis model ini adalah saraf jaringan yang mencoba mempelajari konteks dan makna semantik bahasa alami.
Selanjutnya, model generatif seperti model difusi dan jaringan permusuhan generatif digunakan untuk sintesis gambar.
Apa itu DALE 2?
DALL-E2 adalah model komputer oleh OpenAI yang dirilis pada April 2022. Model tersebut dilatih pada database jutaan gambar berlabel untuk mengaitkan kata dan frasa ke gambar.
Pengguna dapat mengetik frasa sederhana, seperti “kucing makan lasagna”, dan DALL-E 2 akan menghasilkan interpretasinya sendiri tentang apa yang coba dijelaskan oleh frasa tersebut.
Selain membuat gambar dari awal, DALL-E 2 juga dapat mengedit gambar yang ada. Pada contoh di bawah, DALL-E dapat menghasilkan gambar ruangan yang dimodifikasi dengan sofa tambahan.
DALL-E 2 hanyalah salah satu dari banyak proyek serupa yang telah dirilis OpenAI dalam beberapa tahun terakhir. GPT-3 OpenAI menjadi layak diberitakan ketika tampaknya menghasilkan teks dengan berbagai gaya.
Saat ini, DALL-E 2 masih dalam pengujian beta. Pengguna yang tertarik dapat mendaftar untuk Daftar tunggu dan menunggu akses.
Bagaimana cara kerjanya?
Meskipun hasil DALL-E 2 sangat mengesankan, Anda mungkin bertanya-tanya bagaimana cara kerjanya.
DALL-E 2 adalah contoh implementasi multimodal dari proyek GPT-3 OpenAI.
Pertama, prompt teks pengguna ditempatkan ke dalam encoder teks yang memetakan prompt ke ruang representasi. DALL-E 2 menggunakan model OpenAI lain yang disebut CLIP ( Contrastive Language-Image Pre-Training) untuk mendapatkan informasi semantik dari bahasa alami.
Selanjutnya, model yang dikenal sebagai sebelumnya memetakan pengkodean teks menjadi pengkodean gambar. Pengkodean gambar ini harus menangkap informasi semantik yang ditemukan dalam langkah penyandian teks.
Untuk membuat gambar sebenarnya, DALL-E 2 menggunakan dekoder gambar untuk menghasilkan visual menggunakan informasi semantik dan detail penyandian gambar. OpenAI menggunakan versi modifikasi dari MELUNCUR model untuk melakukan pembuatan citra. GLIDE bergantung pada model difusi untuk membuat gambar.
Penambahan GLIDE ke model DALL-E 2 memungkinkan keluaran yang lebih fotorealistik. Karena model GLIDE bersifat stokastik atau ditentukan secara acak, model DALL-E 2 dapat dengan mudah membuat variasi dengan menjalankan model berulang kali.
keterbatasan
Terlepas dari hasil yang mengesankan dari model DALL-E 2, model ini masih menghadapi beberapa keterbatasan.
Teks Ejaan
Anjuran yang mencoba untuk membuat DALL-E 2 menghasilkan teks mengungkapkan bahwa ia kesulitan mengeja kata. Para ahli berasumsi bahwa ini mungkin karena informasi ejaan bukan bagian dari set data pelatihan.
Penalaran Komposisi
Para peneliti mengamati bahwa DALL-E 2 masih memiliki beberapa kesulitan dengan penalaran komposisi. Sederhananya, model dapat memahami aspek-aspek individual dari sebuah gambar sementara masih mengalami kesulitan mencari tahu hubungan antara aspek-aspek ini.
Misalnya, jika diberi prompt "kubus merah di atas kubus biru", DALL-E akan menghasilkan kubus biru dan kubus merah secara akurat tetapi gagal menempatkannya dengan benar. Model juga telah diamati mengalami kesulitan dengan petunjuk yang membutuhkan sejumlah objek tertentu untuk ditarik keluar.
Bias dalam kumpulan data
Jika prompt tidak berisi detail lainnya, DALL-E telah diamati untuk menggambarkan orang dan lingkungan kulit putih atau Barat. Bias representasional ini terjadi karena banyaknya gambar Barat-sentris dalam dataset.
Model ini juga telah diamati mengikuti stereotip gender. Misalnya, mengetik prompt "pramugari" sebagian besar menghasilkan gambar pramugari wanita.
Apa itu Google Imagen AI?
Google Gambar AI adalah model yang bertujuan untuk membuat gambar fotorealistik dari teks input. Mirip dengan DALL-E, model ini juga menggunakan model bahasa transformator untuk memahami teks dan bergantung pada penggunaan model difusi untuk membuat gambar berkualitas tinggi.
Bersamaan dengan Imagen, Google juga telah merilis benchmark untuk model teks-ke-gambar yang disebut DrawBench. Menggunakan DrawBench, mereka dapat mengamati bahwa penilai manusia lebih menyukai keluaran Imagen daripada model lain termasuk DALL-E 2.
Bagaimana cara kerjanya?
Mirip dengan DALL-E, Imagen pertama-tama mengubah prompt pengguna menjadi teks yang disematkan melalui encoder teks yang dibekukan.
Imagen menggunakan model difusi yang mempelajari cara mengubah pola noise menjadi gambar. Output awal dari gambar-gambar ini adalah resolusi rendah dan kemudian dilewatkan melalui model lain yang dikenal sebagai model difusi super-resolusi untuk meningkatkan resolusi gambar akhir. Model difusi pertama menghasilkan gambar 64x64 piksel dan kemudian diledakkan menjadi gambar resolusi tinggi 1024x1024.
Berdasarkan penelitian tim Imagen, model bahasa beku besar yang dilatih hanya pada data teks masih merupakan penyandi teks yang sangat efektif untuk pembuatan teks ke gambar.
Studi ini juga memperkenalkan konsep thresholding dinamis. Metode ini memungkinkan gambar tampak lebih fotorealistik dengan meningkatkan bobot panduan saat menghasilkan gambar.
Performa DALLE 2 vs Imagen
Hasil awal dari benchmark Google menunjukkan bahwa responden manusia lebih memilih gambar yang dihasilkan oleh Imagen daripada DALL-E 2 dan model teks-ke-gambar lainnya seperti Latent Diffusion dan VQGAN+CLIP.
Keluaran yang datang dari tim Imagen juga menunjukkan bahwa model mereka berkinerja lebih baik dalam mengeja teks, kelemahan yang diketahui dari model DALL-E 2.
Namun, karena Google belum merilis model tersebut ke publik, masih harus dilihat seberapa akurat benchmark Google.
Kesimpulan
Munculnya model teks-ke-gambar fotorealistik kontroversial karena model ini matang untuk penggunaan yang tidak etis.
Teknologi dapat mengarah pada pembuatan konten eksplisit atau sebagai alat untuk disinformasi. Para peneliti dari Google dan OpenAI menyadari hal ini, itulah sebabnya mengapa teknologi ini masih belum dapat diakses oleh semua orang.
Model teks-ke-gambar juga memiliki implikasi ekonomi yang signifikan. Apakah profesi seperti model, fotografer, dan artis akan terpengaruh jika model seperti DALL-E menjadi mainstream?
Saat ini, model-model tersebut masih memiliki keterbatasan. Memegang gambar yang dihasilkan AI untuk diteliti akan mengungkapkan ketidaksempurnaannya. Dengan OpenAI dan Google bersaing untuk model yang paling efektif, mungkin hanya masalah waktu sebelum hasil yang benar-benar sempurna dihasilkan: gambar yang tidak dapat dibedakan dari aslinya.
Menurut Anda apa yang akan terjadi ketika teknologi berjalan sejauh itu?
Tinggalkan Balasan