Jadual Kandungan[Sembunyi][Tunjukkan]
Dalam beberapa tahun kebelakangan ini, model pembelajaran mendalam telah menjadi lebih berkesan dalam memahami bahasa manusia.
Fikirkan projek seperti GPT-3, yang kini mampu mencipta keseluruhan artikel dan tapak web. GitHub baru-baru ini telah diperkenalkan GitHub Copilot, perkhidmatan yang menyediakan keseluruhan coretan kod dengan hanya menerangkan jenis kod yang anda perlukan.
Penyelidik di OpenAI, Facebook dan Google telah mengusahakan cara untuk menggunakan pembelajaran mendalam untuk mengendalikan tugas lain: kapsyen imej. Menggunakan set data yang besar dengan berjuta-juta entri, mereka telah menghasilkan beberapa mengejutkan keputusan.
Akhir-akhir ini, penyelidik ini telah cuba melaksanakan tugas yang bertentangan: mencipta imej daripada kapsyen. Adakah kini mungkin untuk mencipta imej baharu sepenuhnya daripada perihalan?
Panduan ini akan meneroka dua model teks-ke-imej yang paling maju: DALL-E 2 OpenAI dan Imagen AI Google. Setiap projek ini telah memperkenalkan kaedah terobosan yang mungkin mengubah masyarakat seperti yang kita ketahui.
Tetapi pertama-tama, mari kita fahami apa yang kita maksudkan dengan penjanaan teks ke imej.
Apakah penjanaan teks ke imej?
Model teks ke imej membenarkan komputer mencipta imej baharu dan unik berdasarkan gesaan. Orang ramai kini boleh memberikan perihalan teks bagi imej yang ingin mereka hasilkan dan model akan cuba mencipta visual yang sepadan dengan perihalan itu sedekat mungkin.
Model pembelajaran mesin telah memanfaatkan penggunaan set data besar yang mengandungi pasangan kapsyen imej untuk meningkatkan lagi prestasi.
Kebanyakan teks ke imej model menggunakan model bahasa transformer untuk mentafsir gesaan. Model jenis ini ialah a rangkaian neural yang cuba mempelajari konteks dan makna semantik bahasa semula jadi.
Seterusnya, model generatif seperti model penyebaran dan rangkaian musuh generatif digunakan untuk sintesis imej.
Apakah DALLE 2?
DALL-E2 ialah model komputer oleh OpenAI yang dikeluarkan pada April 2022. Model ini dilatih pada pangkalan data berjuta-juta gambar berlabel untuk mengaitkan perkataan dan frasa dengan imej.
Pengguna boleh menaip frasa mudah, seperti "kucing makan lasagna", dan DALL-E 2 akan menjana tafsiran sendiri tentang perkara yang cuba diterangkan oleh frasa itu.
Selain mencipta imej dari awal, DALL-E 2 juga boleh mengedit imej sedia ada. Dalam contoh di bawah, DALL-E dapat menjana imej diubah suai bagi bilik dengan sofa tambahan.
DALL-E 2 hanyalah salah satu daripada banyak projek serupa yang telah dikeluarkan OpenAI dalam beberapa tahun kebelakangan ini. GPT-3 OpenAI menjadi berita apabila ia seolah-olah menghasilkan teks dengan gaya yang berbeza-beza.
Pada masa ini, DALL-E 2 masih dalam ujian beta. Pengguna yang berminat boleh mendaftar untuk mereka senarai menunggu dan tunggu akses.
Bagaimana ia Berfungsi?
Walaupun keputusan DALL-E 2 mengagumkan, anda mungkin tertanya-tanya bagaimana semuanya berfungsi.
DALL-E 2 ialah contoh pelaksanaan pelbagai mod projek GPT-3 OpenAI.
Pertama, gesaan teks pengguna diletakkan ke dalam pengekod teks yang memetakan gesaan ke ruang perwakilan. DALL-E 2 menggunakan model OpenAI lain yang dipanggil CLIP ( Contrastive Language-Image Pre-Training) untuk mendapatkan maklumat semantik daripada bahasa semula jadi.
Seterusnya, model yang dikenali sebagai sebelum memetakan pengekodan teks ke dalam pengekodan imej. Pengekodan imej ini harus menangkap maklumat semantik yang terdapat dalam langkah pengekodan teks.
Untuk mencipta imej sebenar, DALL-E 2 menggunakan penyahkod imej untuk menghasilkan visual menggunakan maklumat semantik dan butiran pengekodan imej. OpenAI menggunakan versi yang diubah suai Luncur model untuk melaksanakan penjanaan imej. GLIDE bergantung pada a model penyebaran untuk mencipta imej.
Penambahan GLIDE pada model DALL-E 2 membolehkan lebih banyak output fotorealistik. Memandangkan model GLIDE adalah stokastik atau ditentukan secara rawak, model DALL-E 2 boleh mencipta variasi dengan mudah dengan menjalankan model itu berulang kali.
Batasan
Walaupun keputusan mengagumkan model DALL-E 2, ia masih menghadapi beberapa batasan.
Teks Ejaan
Gesaan yang cuba membuat DALL-E 2 menjana teks mendedahkan bahawa ia mengalami kesukaran mengeja perkataan. Pakar menganggap bahawa ini mungkin kerana maklumat ejaan bukan sebahagian daripada set data latihan.
Penaakulan Komposisi
Penyelidik memerhatikan bahawa DALL-E 2 masih mempunyai sedikit kesukaran dengan penaakulan komposisi. Ringkasnya, model boleh memahami aspek individu imej sementara masih menghadapi masalah untuk memikirkan hubungan antara aspek ini.
Contohnya, jika diberi gesaan "kubus merah di atas kubus biru", DALL-E akan menjana kubus biru dan kubus merah dengan tepat tetapi gagal meletakkannya dengan betul. Model ini juga telah diperhatikan mengalami kesukaran dengan gesaan yang memerlukan bilangan objek tertentu untuk dikeluarkan.
Bias dalam set data
Jika gesaan tidak mengandungi butiran lain, DALL-E telah diperhatikan untuk menggambarkan orang dan persekitaran putih atau Barat. Bias perwakilan ini berlaku kerana banyaknya imej berpusatkan Barat dalam set data.
Model ini juga telah diperhatikan mengikuti stereotaip jantina. Sebagai contoh, menaip "pramugari" gesaan kebanyakannya menghasilkan imej pramugari wanita.
Apakah Google Imagen AI?
Google Imej AI ialah model yang bertujuan untuk mencipta imej fotorealistik daripada teks input. Sama seperti DALL-E, model ini juga menggunakan model bahasa pengubah untuk memahami teks dan bergantung pada penggunaan model resapan untuk mencipta imej berkualiti tinggi.
Di samping Imagen, Google juga telah mengeluarkan penanda aras untuk model teks-ke-imej yang dipanggil DrawBench. Menggunakan DrawBench, mereka dapat melihat bahawa penilai manusia lebih mengutamakan output Imagen berbanding model lain termasuk DALL-E 2.
Bagaimana ia Berfungsi?
Sama seperti DALL-E, Imagen mula-mula menukar gesaan pengguna kepada pembenaman teks melalui pengekod teks beku.
Imagen menggunakan model resapan yang mempelajari cara menukar corak hingar kepada imej. Output awal imej ini adalah peleraian rendah dan kemudiannya melalui model lain yang dikenali sebagai model resapan resolusi super untuk meningkatkan resolusi imej akhir. Model resapan pertama mengeluarkan imej 64×64 piksel dan kemudiannya dipancarkan kepada imej resolusi tinggi 1024×1024.
Berdasarkan penyelidikan pasukan Imagen, model bahasa beku besar yang dilatih hanya pada data teks masih merupakan pengekod teks yang sangat berkesan untuk penjanaan teks ke imej.
Kajian ini juga memperkenalkan konsep ambang dinamik. Kaedah ini membolehkan imej kelihatan lebih fotorealistik dengan meningkatkan pemberat panduan semasa menjana imej.
Prestasi DALLE 2 lwn Imagen
Keputusan awal daripada penanda aras Google menunjukkan bahawa responden manusia lebih suka imej yang dijana oleh Imagen berbanding DALL-E 2 dan model teks ke imej lain seperti Latent Diffusion dan VQGAN+CLIP.
Output yang datang daripada pasukan Imagen juga telah menunjukkan bahawa model mereka berprestasi lebih baik dalam mengeja teks, kelemahan yang diketahui model DALL-E 2.
Walau bagaimanapun, memandangkan Google masih belum mengeluarkan model tersebut kepada umum, ia masih belum dapat dilihat sejauh mana penanda aras Google adalah tepat.
Kesimpulan
Kemunculan model teks-ke-imej fotorealistik adalah kontroversi kerana model ini sudah matang untuk kegunaan yang tidak beretika.
Teknologi ini boleh membawa kepada penciptaan kandungan eksplisit atau sebagai alat untuk disinformasikan. Penyelidik dari kedua-dua Google dan OpenAI menyedari perkara ini, yang sebahagiannya mengapa teknologi ini masih tidak boleh diakses oleh semua orang.
Model teks-ke-imej juga mempunyai implikasi ekonomi yang ketara. Adakah profesion seperti model, jurugambar dan artis akan terjejas jika model seperti DALL-E menjadi arus perdana?
Pada masa ini, model ini masih mempunyai had. Menahan mana-mana imej yang dijana AI untuk diteliti akan mendedahkan ketidaksempurnaannya. Dengan kedua-dua OpenAI dan Google bersaing untuk model yang paling berkesan, mungkin memerlukan masa sebelum output yang benar-benar sempurna dijana: imej yang tidak dapat dibezakan daripada perkara sebenar.
Apa yang anda fikir akan berlaku apabila teknologi pergi sejauh itu?
Sila tinggalkan balasan anda