DALL-E 2 vs Imagen - Gambar dan Seni yang Dihasilkan AI

Daftar Isi[Bersembunyi][Menunjukkan]

Apa yang dimaksud dengan generasi teks-ke-gambar?
Apa itu DALE 2?+-
- Bagaimana cara kerjanya?
- keterbatasan
Apa itu Google Imagen AI?+-
- Bagaimana cara kerjanya?
Performa DALLE 2 vs Imagen
Kesimpulan

Dalam beberapa tahun terakhir, model pembelajaran mendalam menjadi lebih efektif dalam memahami bahasa manusia.

Pikirkan proyek seperti GPT-3, yang sekarang dapat membuat seluruh artikel dan situs web. GitHub baru-baru ini memperkenalkan Kopilot GitHub, layanan yang menyediakan seluruh cuplikan kode hanya dengan menjelaskan jenis kode yang Anda butuhkan.

Para peneliti di OpenAI, Facebook, dan Google telah mengerjakan cara untuk menggunakan pembelajaran mendalam untuk menangani tugas lain: memberi teks pada gambar. Menggunakan kumpulan data besar dengan jutaan entri, mereka telah menghasilkan beberapa mengherankan hasil.

Akhir-akhir ini, para peneliti ini mencoba melakukan tugas yang berlawanan: membuat gambar dari teks. Apakah sekarang mungkin untuk membuat gambar yang sama sekali baru dari deskripsi?

Panduan ini akan mengeksplorasi dua model teks-ke-gambar paling canggih: DALL-E 2 OpenAI dan Google Imagen AI. Masing-masing proyek ini telah memperkenalkan metode inovatif yang dapat mengubah masyarakat seperti yang kita kenal.

Tapi pertama-tama, mari kita pahami apa yang kita maksud dengan generasi teks-ke-gambar.

Apa yang dimaksud dengan generasi teks-ke-gambar?

Model teks-ke-gambar memungkinkan komputer untuk membuat gambar baru dan unik berdasarkan petunjuknya. Orang sekarang dapat memberikan deskripsi teks dari gambar yang ingin mereka hasilkan, dan model akan mencoba membuat visual yang sedekat mungkin dengan deskripsi itu.

Model pembelajaran mesin telah memanfaatkan penggunaan kumpulan data besar yang berisi pasangan teks-gambar untuk lebih meningkatkan kinerja.

Kebanyakan teks-ke-gambar model menggunakan model bahasa transformator untuk menginterpretasikan perintah. Jenis model ini adalah saraf jaringan yang mencoba mempelajari konteks dan makna semantik bahasa alami.

Selanjutnya, model generatif seperti model difusi dan jaringan permusuhan generatif digunakan untuk sintesis gambar.

Apa itu DALE 2?

DALL-E 2 menciptakan gambar dan seni yang realistis

DALL-E2 adalah model komputer oleh OpenAI yang dirilis pada April 2022. Model tersebut dilatih pada database jutaan gambar berlabel untuk mengaitkan kata dan frasa ke gambar.

Pengguna dapat mengetik frasa sederhana, seperti “kucing makan lasagna”, dan DALL-E 2 akan menghasilkan interpretasinya sendiri tentang apa yang coba dijelaskan oleh frasa tersebut.

Selain membuat gambar dari awal, DALL-E 2 juga dapat mengedit gambar yang ada. Pada contoh di bawah, DALL-E dapat menghasilkan gambar ruangan yang dimodifikasi dengan sofa tambahan.

DALL-E 2 dapat mengedit gambar yang ada

DALL-E 2 hanyalah salah satu dari banyak proyek serupa yang telah dirilis OpenAI dalam beberapa tahun terakhir. GPT-3 OpenAI menjadi layak diberitakan ketika tampaknya menghasilkan teks dengan berbagai gaya.

Saat ini, DALL-E 2 masih dalam pengujian beta. Pengguna yang tertarik dapat mendaftar untuk Daftar tunggu dan menunggu akses.

Bagaimana cara kerjanya?

Meskipun hasil DALL-E 2 sangat mengesankan, Anda mungkin bertanya-tanya bagaimana cara kerjanya.

DALL-E 2 adalah contoh implementasi multimodal dari proyek GPT-3 OpenAI.

gambaran umum arsitektur DALL-E 2

Pertama, prompt teks pengguna ditempatkan ke dalam encoder teks yang memetakan prompt ke ruang representasi. DALL-E 2 menggunakan model OpenAI lain yang disebut CLIP ( Contrastive Language-Image Pre-Training) untuk mendapatkan informasi semantik dari bahasa alami.

Selanjutnya, model yang dikenal sebagai sebelumnya memetakan pengkodean teks menjadi pengkodean gambar. Pengkodean gambar ini harus menangkap informasi semantik yang ditemukan dalam langkah penyandian teks.

Untuk membuat gambar sebenarnya, DALL-E 2 menggunakan dekoder gambar untuk menghasilkan visual menggunakan informasi semantik dan detail penyandian gambar. OpenAI menggunakan versi modifikasi dari MELUNCUR model untuk melakukan pembuatan citra. GLIDE bergantung pada model difusi untuk membuat gambar.

Penambahan GLIDE ke model DALL-E 2 memungkinkan keluaran yang lebih fotorealistik. Karena model GLIDE bersifat stokastik atau ditentukan secara acak, model DALL-E 2 dapat dengan mudah membuat variasi dengan menjalankan model berulang kali.

keterbatasan

Terlepas dari hasil yang mengesankan dari model DALL-E 2, model ini masih menghadapi beberapa keterbatasan.

Teks Ejaan

model mengacaukan ejaan kata-kata di papan nama

Anjuran yang mencoba untuk membuat DALL-E 2 menghasilkan teks mengungkapkan bahwa ia kesulitan mengeja kata. Para ahli berasumsi bahwa ini mungkin karena informasi ejaan bukan bagian dari set data pelatihan.

Penalaran Komposisi

model berjuang dengan menempatkan objek di luar angkasa

Para peneliti mengamati bahwa DALL-E 2 masih memiliki beberapa kesulitan dengan penalaran komposisi. Sederhananya, model dapat memahami aspek-aspek individual dari sebuah gambar sementara masih mengalami kesulitan mencari tahu hubungan antara aspek-aspek ini.

Misalnya, jika diberi prompt "kubus merah di atas kubus biru", DALL-E akan menghasilkan kubus biru dan kubus merah secara akurat tetapi gagal menempatkannya dengan benar. Model juga telah diamati mengalami kesulitan dengan petunjuk yang membutuhkan sejumlah objek tertentu untuk ditarik keluar.

Bias dalam kumpulan data

Jika prompt tidak berisi detail lainnya, DALL-E telah diamati untuk menggambarkan orang dan lingkungan kulit putih atau Barat. Bias representasional ini terjadi karena banyaknya gambar Barat-sentris dalam dataset.

DALL-E 2 memiliki bias gender

Model ini juga telah diamati mengikuti stereotip gender. Misalnya, mengetik prompt "pramugari" sebagian besar menghasilkan gambar pramugari wanita.

Apa itu Google Imagen AI?

DALL-E 2 vs Imagen - Imagen lebih baik dalam ejaan dan komposisi

Google Gambar AI adalah model yang bertujuan untuk membuat gambar fotorealistik dari teks input. Mirip dengan DALL-E, model ini juga menggunakan model bahasa transformator untuk memahami teks dan bergantung pada penggunaan model difusi untuk membuat gambar berkualitas tinggi.

Bersamaan dengan Imagen, Google juga telah merilis benchmark untuk model teks-ke-gambar yang disebut DrawBench. Menggunakan DrawBench, mereka dapat mengamati bahwa penilai manusia lebih menyukai keluaran Imagen daripada model lain termasuk DALL-E 2.

Bagaimana cara kerjanya?

imagen menggunakan model difusi untuk menghasilkan karya resolusi tinggi

Mirip dengan DALL-E, Imagen pertama-tama mengubah prompt pengguna menjadi teks yang disematkan melalui encoder teks yang dibekukan.

Imagen menggunakan model difusi yang mempelajari cara mengubah pola noise menjadi gambar. Output awal dari gambar-gambar ini adalah resolusi rendah dan kemudian dilewatkan melalui model lain yang dikenal sebagai model difusi super-resolusi untuk meningkatkan resolusi gambar akhir. Model difusi pertama menghasilkan gambar 64x64 piksel dan kemudian diledakkan menjadi gambar resolusi tinggi 1024x1024.

Berdasarkan penelitian tim Imagen, model bahasa beku besar yang dilatih hanya pada data teks masih merupakan penyandi teks yang sangat efektif untuk pembuatan teks ke gambar.

Studi ini juga memperkenalkan konsep thresholding dinamis. Metode ini memungkinkan gambar tampak lebih fotorealistik dengan meningkatkan bobot panduan saat menghasilkan gambar.

Performa DALLE 2 vs Imagen

Hasil awal dari benchmark Google menunjukkan bahwa responden manusia lebih memilih gambar yang dihasilkan oleh Imagen daripada DALL-E 2 dan model teks-ke-gambar lainnya seperti Latent Diffusion dan VQGAN+CLIP.

Hasil DALL-E 2 vs Imagen menggunakan DrawBench dari Google

Keluaran yang datang dari tim Imagen juga menunjukkan bahwa model mereka berkinerja lebih baik dalam mengeja teks, kelemahan yang diketahui dari model DALL-E 2.

Namun, karena Google belum merilis model tersebut ke publik, masih harus dilihat seberapa akurat benchmark Google.

Kesimpulan

Munculnya model teks-ke-gambar fotorealistik kontroversial karena model ini matang untuk penggunaan yang tidak etis.

Teknologi dapat mengarah pada pembuatan konten eksplisit atau sebagai alat untuk disinformasi. Para peneliti dari Google dan OpenAI menyadari hal ini, itulah sebabnya mengapa teknologi ini masih belum dapat diakses oleh semua orang.

Model teks-ke-gambar juga memiliki implikasi ekonomi yang signifikan. Apakah profesi seperti model, fotografer, dan artis akan terpengaruh jika model seperti DALL-E menjadi mainstream?

Saat ini, model-model tersebut masih memiliki keterbatasan. Memegang gambar yang dihasilkan AI untuk diteliti akan mengungkapkan ketidaksempurnaannya. Dengan OpenAI dan Google bersaing untuk model yang paling efektif, mungkin hanya masalah waktu sebelum hasil yang benar-benar sempurna dihasilkan: gambar yang tidak dapat dibedakan dari aslinya.

Menurut Anda apa yang akan terjadi ketika teknologi berjalan sejauh itu?

DALL-E 2 vs Imagen – Gambar dan Seni yang Dihasilkan AI

Apa yang dimaksud dengan generasi teks-ke-gambar?

Apa itu DALE 2?

Bagaimana cara kerjanya?

keterbatasan

Apa itu Google Imagen AI?

Bagaimana cara kerjanya?

Performa DALLE 2 vs Imagen

Kesimpulan

Tentang Kami Deion Menor

Artikel Lainnya di HashDork:

Cara Mengurangi Halusinasi pada AI Anda

Colossyan vs Heygen

Buletin Teknologi Masa Depan Ini Tidak Menyebalkan

DALL-E 2 vs Imagen – Gambar dan Seni yang Dihasilkan AI

Apa yang dimaksud dengan generasi teks-ke-gambar?

Apa itu DALE 2?

Bagaimana cara kerjanya?

keterbatasan

Apa itu Google Imagen AI?

Bagaimana cara kerjanya?

Performa DALLE 2 vs Imagen

Kesimpulan

Tentang Kami Deion Menor

Artikel Lainnya di HashDork:

Cara Mengurangi Halusinasi pada AI Anda

10 Alat AI Terbaik untuk Media Sosial

Colossyan vs Heygen

10 Alat Pembuat Video Animasi AI Terbaik

Interaksi pembaca

Tinggalkan Balasan Batalkan balasan

Buletin Teknologi Masa Depan Ini Tidak Menyebalkan