Daftar Isi[Bersembunyi][Menunjukkan]
Secara umum, model generatif dalam seperti GAN, VAE, dan model autoregresif menangani masalah sintesis gambar.
Mengingat kualitas data yang mereka buat, jaringan permusuhan generatif (GAN) telah menerima banyak perhatian dalam beberapa tahun terakhir.
Model difusi adalah bidang studi menarik lainnya yang telah memantapkan dirinya. Bidang gambar, video, dan generasi suara keduanya telah digunakan secara luas untuk keduanya.
Model Difusi vs. GAN: Mana yang Menghasilkan Hasil Lebih Baik? Tentu saja, ini telah menyebabkan diskusi yang berkelanjutan.
Dalam arsitektur komputasi yang dikenal sebagai GAN, dua jaringan saraf berjuang melawan satu sama lain untuk menghasilkan contoh data yang baru disintesis yang dapat lulus untuk data asli.
Model difusi semakin populer karena memberikan stabilitas pelatihan dan hasil tinggi untuk menghasilkan musik dan grafik.
Artikel ini akan membahas model difusi dan GAN secara rinci, serta bagaimana mereka berbeda satu sama lain dan beberapa hal lainnya.
Jadi, apa itu Generative Adversarial Networks?
Untuk membuat contoh data buatan baru yang mungkin disalahartikan sebagai data asli, jaringan permusuhan generatif (GAN) menggunakan dua jaringan saraf dan mengadu mereka satu sama lain (dengan demikian "permusuhan" dalam namanya).
Mereka banyak digunakan untuk pidato, video, dan pembuatan gambar.
Tujuan GAN adalah untuk membuat data yang sebelumnya belum ditemukan dari kumpulan data tertentu. Mencoba menyimpulkan model distribusi data dasar yang sebenarnya dan tidak teridentifikasi dari sampel, melakukan ini.
Atau dikatakan, jaringan ini adalah model implisit yang mencoba mempelajari distribusi statistik tertentu.
Metode yang digunakan GAN untuk menemukan cara mencapai tujuan ini adalah hal yang baru. Faktanya, mereka menghasilkan data dengan memainkan permainan dua pemain untuk mengembangkan model implisit.
Berikut penjelasan strukturnya:
- Diskriminator yang mendapatkan kemampuan untuk membedakan antara data asli dan palsu
- generator yang mengambil cara baru untuk membuat data dapat mengelabui diskriminator.
Diskriminator berperan sebagai jaringan saraf. Oleh karena itu, generator perlu membuat gambar dengan kualitas tinggi untuk mengelabuinya.
Fakta bahwa generator ini tidak dilatih menggunakan distribusi output apa pun merupakan perbedaan yang signifikan antara model autoencoder dan model lainnya.
Ada dua cara untuk menguraikan fungsi kerugian model:
- kemampuan untuk mengukur apakah diskriminator secara akurat meramalkan data nyata
- data yang dihasilkan diprediksi secara akurat oleh sebagian.
Pada diskriminator terbaik yang layak, fungsi kerugian ini kemudian diminimalkan:
Model generik karena itu dapat dianggap sebagai model minimisasi jarak dan, jika diskriminatornya ideal, sebagai minimalisasi divergensi antara distribusi yang benar dan yang dihasilkan.
Pada kenyataannya, perbedaan yang berbeda dapat digunakan dan menghasilkan berbagai metode pelatihan GAN.
Dinamika pembelajaran, yang mencakup pertukaran antara generator dan diskriminator, menantang untuk diikuti, meskipun mudah untuk menyesuaikan fungsi kerugian GAN.
Juga tidak ada jaminan bahwa pembelajaran akan menyatu. Akibatnya, melatih model GAN menjadi sulit, karena biasanya terjadi masalah seperti menghilangnya gradien dan mode collapse (ketika tidak ada keragaman dalam sampel yang dihasilkan).
Sekarang, saatnya untuk Model Difusi
Masalah dengan konvergensi pelatihan GAN telah diatasi melalui pengembangan model difusi.
Model-model ini mengasumsikan bahwa proses difusi setara dengan kehilangan informasi yang disebabkan oleh gangguan progresif kebisingan (suara gaussian ditambahkan pada setiap langkah waktu proses difusi).
Tujuan dari model tersebut adalah untuk menentukan bagaimana kebisingan mempengaruhi informasi yang ada dalam sampel, atau, dengan kata lain, berapa banyak informasi yang hilang karena difusi.
Jika sebuah model dapat mengetahui hal ini, ia harus dapat mengambil sampel asli dan membatalkan kehilangan informasi yang terjadi.
Hal ini dicapai melalui model difusi denoising. Proses difusi maju dan proses difusi balik membentuk dua langkah.
Proses difusi maju melibatkan penambahan derau Gaussian secara bertahap (yaitu, proses difusi) hingga data benar-benar terkontaminasi oleh derau.
Jaringan saraf selanjutnya dilatih menggunakan metode difusi terbalik untuk mempelajari probabilitas distribusi bersyarat untuk membalikkan kebisingan.
Di sini Anda dapat memahami lebih lanjut tentang model difusi.
Model Difusi Vs GAN
Seperti model difusi, GAN menghasilkan gambar dari noise.
Model terdiri dari jaringan saraf generator, yang dimulai dengan kebisingan dari beberapa variabel pengkondisian informatif, seperti label kelas atau pengkodean teks.
Hasilnya kemudian harus menjadi sesuatu yang menyerupai gambar realistis.
Untuk membuat generasi gambar fotorealistik dan fidelitas tinggi, kami menggunakan GAN. Bahkan visual yang lebih realistis daripada GAN diproduksi menggunakan model difusi.
Di satu sisi, model difusi lebih akurat dalam menggambarkan fakta.
Sementara GAN mengambil kebisingan acak input atau variabel pengkondisian kelas dan mengeluarkan sampel realistis, model difusi seringkali lebih lambat, berulang, dan membutuhkan lebih banyak panduan.
Tidak ada banyak ruang untuk kesalahan saat denoising diterapkan berulang kali dengan tujuan mengembalikan ke gambar asli dari noise.
Setiap pos pemeriksaan dilewati sepanjang tahap pembuatan, dan dengan setiap langkah, gambar mungkin mendapatkan lebih banyak informasi.
Kesimpulan
Kesimpulannya, Karena beberapa penelitian signifikan yang hanya diterbitkan pada tahun 2020-an dan 2021, model difusi sekarang dapat mengungguli GAN dalam hal sintesis gambar.
Tahun ini, OpenAI diluncurkan DALL-E2, model produksi gambar yang memungkinkan praktisi menggunakan model difusi.
Meskipun GAN mutakhir, kendalanya membuat sulit untuk mengukur dan menggunakannya dalam konteks baru.
Untuk mencapai kualitas sampel seperti GAN menggunakan model berbasis kemungkinan, banyak pekerjaan telah dilakukan untuk itu.
Tinggalkan Balasan