Jadual Kandungan[Sembunyi][Tunjukkan]
Dalam beberapa tahun kebelakangan ini, model generatif yang dipanggil "model resapan" telah menjadi semakin popular, dan dengan tujuan yang baik.
Dunia telah melihat keupayaan model penyebaran, seperti mengatasi prestasi GAN dalam sintesis gambar, terima kasih kepada beberapa penerbitan mercu tanda terpilih yang diterbitkan hanya pada tahun 2020-an & 2021-an.
Pengamal baru-baru ini melihat penggunaan model resapan dalam DALL-E2, model penciptaan imej OpenAI yang diterbitkan bulan lepas.
Ramai pengamal Pembelajaran Mesin sudah pasti ingin tahu tentang cara kerja dalaman Model Difusi memandangkan lonjakan kejayaan mereka baru-baru ini.
Dalam siaran ini, kita akan melihat asas teori Model Resapan, reka bentuknya, kelebihannya dan banyak lagi. Mari teruskan.
Apakah model Difusi?
Mari kita mulakan dengan memikirkan mengapa model ini dirujuk sebagai model resapan.
Perkataan yang berkaitan dengan termodinamik dalam kelas fizik dipanggil difusi. Sistem tidak berada dalam keseimbangan jika terdapat kepekatan bahan yang besar, seperti bau, di satu lokasi.
Resapan mesti berlaku untuk sistem memasuki keseimbangan. Molekul-molekul bau meresap ke seluruh sistem dari kawasan kepekatan yang lebih tinggi, menjadikan keseluruhan sistem seragam.
Semuanya akhirnya menjadi homogen kerana penyebaran.
Model resapan didorong oleh keadaan bukan keseimbangan termodinamik ini. Model resapan menggunakan rantai Markov, iaitu satu siri pembolehubah di mana nilai setiap pembolehubah bergantung pada keadaan peristiwa sebelumnya.
Mengambil gambar, kami secara berturut-turut menambah jumlah hingar tertentu padanya sepanjang fasa resapan ke hadapan.
Selepas menyimpan imej yang lebih bising, kami meneruskan untuk mencipta imej seterusnya dalam siri dengan memperkenalkan bunyi tambahan.
Beberapa kali, prosedur ini dilakukan. Gambar hingar tulen terhasil daripada mengulangi kaedah ini beberapa kali.
Bagaimanakah kita boleh mencipta gambar daripada imej yang bersepah ini?
Proses resapan diterbalikkan menggunakan a rangkaian neural. Rangkaian yang sama dan pemberat yang sama digunakan dalam proses resapan ke belakang untuk mencipta gambar dari t ke t-1.
Daripada membiarkan rangkaian menjangka gambar, seseorang boleh cuba meramalkan bunyi pada setiap langkah, yang perlu dialih keluar daripada imej, untuk memudahkan lagi tugas.
Dalam mana-mana senario, yang reka bentuk rangkaian saraf mesti dipilih dengan cara yang mengekalkan dimensi data.
Menyelam dalam Model Penyebaran
Komponen model resapan ialah proses ke hadapan (juga dikenali sebagai proses resapan), di mana datum (selalunya imej) dibunyikan secara beransur-ansur, dan proses terbalik (juga dikenali sebagai proses resapan terbalik), di mana hingar ditukarkan semula kepada sampel daripada taburan sasaran.
Apabila tahap hingar cukup rendah, Gaussians bersyarat boleh digunakan untuk mewujudkan peralihan rantai pensampelan dalam proses ke hadapan. Parameterisasi mudah proses ke hadapan terhasil daripada gandingan pengetahuan ini dengan andaian Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Di sini lima….T ialah jadual varians (sama ada dipelajari atau tetap) yang memastikan, untuk T yang cukup tinggi, bahawa xT hampir merupakan Gaussian isotropik.
Proses yang bertentangan ialah tempat sihir model penyebaran berlaku. Model belajar untuk membalikkan proses penyebaran ini semasa latihan untuk menghasilkan data baharu. Model mempelajari pengagihan bersama sebagai (x0:T) hasil bermula dengan persamaan hingar Gaussian tulen
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
di mana parameter bergantung masa peralihan Gaussian ditemui. Khususnya, ambil perhatian tentang cara rumusan Markov menyatakan bahawa taburan peralihan resapan songsang yang diberikan bergantung secara eksklusif pada langkah masa sebelumnya (atau langkah masa berikutnya, bergantung pada cara anda melihatnya):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Latihan Model
Model Markov terbalik yang memaksimumkan kebarangkalian data latihan digunakan untuk melatih model resapan. Secara praktikal, latihan adalah sama dengan mengurangkan sempadan atas variasi pada kebarangkalian log negatif.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
model
Kami kini perlu memutuskan cara untuk melaksanakan Model Resapan kami selepas mewujudkan asas matematik bagi fungsi matlamat kami. Satu-satunya keputusan yang diperlukan untuk proses ke hadapan ialah menentukan jadual varians, yang nilainya biasanya meningkat semasa prosedur.
Kami sangat mempertimbangkan untuk menggunakan parameterisasi pengedaran Gaussian dan seni bina model untuk prosedur terbalik.
Satu-satunya syarat reka bentuk kami ialah kedua-dua input dan output mempunyai dimensi yang sama. Ini menggariskan tahap kebebasan yang sangat besar yang disediakan oleh Model Penyebaran.
Di bawah, kita akan pergi ke lebih mendalam tentang pilihan ini.
Proses Hadapan
Kami mesti menyediakan jadual varians berhubung dengan proses ke hadapan. Kami secara khusus menetapkannya sebagai pemalar yang bergantung kepada masa dan mengabaikan kemungkinan ia boleh dipelajari. Jadual kronologi daripada
β1 = 10−4 hingga βT = 0.02.
Lt menjadi pemalar berkenaan dengan set parameter boleh dipelajari kami kerana jadual varians tetap, membolehkan kami mengabaikannya semasa latihan tanpa mengira nilai khusus yang dipilih.
Proses Terbalik
Kami kini meneliti keputusan yang diperlukan untuk menentukan proses sebaliknya. Ingat bagaimana kami menggambarkan peralihan Markov terbalik sebagai Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Sekarang kita telah mengenal pasti jenis fungsian. Walaupun fakta bahawa terdapat teknik yang lebih rumit untuk parameter, kami hanya menetapkan
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Dengan kata lain, kami menganggap Gaussian multivariat sebagai hasil daripada Gaussian yang berasingan dengan varians yang sama, nilai varians yang boleh berubah-ubah dari semasa ke semasa. Penyimpangan ini ditetapkan untuk memadankan jadual penyimpangan proses pemajuan.
Hasil daripada formulasi baru ini, kami ada:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Ini menghasilkan fungsi kehilangan ganti yang ditunjukkan di bawah, yang penulis dapati menghasilkan latihan yang lebih konsisten dan hasil yang unggul:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Penulis juga membuat perkaitan antara formulasi model resapan ini dan model generatif pemadanan skor berasaskan Langevin. Seperti pembangunan bebas dan selari bagi fizik kuantum berasaskan gelombang dan mekanik kuantum berasaskan matriks, yang mendedahkan dua rumusan setanding bagi fenomena yang sama, nampaknya Model Resapan dan model Berasaskan Skor boleh menjadi dua sisi syiling yang sama.
Senibina Rangkaian
Walaupun pada hakikatnya fungsi kehilangan pekat kami bertujuan untuk melatih model Σθ, kami masih belum memutuskan seni bina model ini. Perlu diingat bahawa model hanya perlu mempunyai dimensi input dan output yang sama.
Memandangkan kekangan ini, mungkin tidak dijangka seni bina seperti U-Net sering digunakan untuk mencipta model resapan gambar.
Banyak perubahan dibuat di sepanjang laluan proses terbalik sambil menggunakan taburan Gaussian bersyarat berterusan. Ingat bahawa matlamat prosedur terbalik adalah untuk mencipta gambar yang terdiri daripada nilai piksel integer. Oleh itu, penentuan kemungkinan diskret (log) untuk setiap nilai piksel berpotensi ke atas semua piksel adalah perlu.
Ini dicapai dengan memberikan penyahkod diskret yang berasingan kepada peralihan terakhir rantaian resapan terbalik. menganggar peluang imej tertentu x0 diberikan x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ jika x = 1 x + 1 255 jika x < 1 δ−(x) = −∞ jika x = −1 x − 1 255 jika x > −1
di mana superskrip I menandakan pengekstrakan satu koordinat dan D menandakan bilangan dimensi dalam data.
Objektif pada ketika ini adalah untuk mewujudkan kebarangkalian setiap nilai integer untuk piksel tertentu memandangkan taburan nilai berpotensi untuk piksel tersebut dalam masa yang berbeza-beza. t=1.
Objektif Akhir
Hasil terbesar, menurut saintis, datang daripada meramalkan komponen hingar gambar pada langkah masa tertentu. Pada akhirnya, mereka menggunakan matlamat berikut:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Dalam imej berikut, prosedur latihan dan persampelan untuk model resapan kami digambarkan dengan ringkas:
Faedah Model Difusi
Seperti yang telah dinyatakan, jumlah penyelidikan mengenai model resapan telah meningkat baru-baru ini. Model Resapan kini memberikan kualiti imej yang terkini dan diilhamkan oleh termodinamik bukan keseimbangan.
Model Penyebaran memberikan pelbagai kelebihan lain selain mempunyai kualiti gambar yang canggih, seperti tidak memerlukan latihan lawan.
Kelemahan latihan adversarial diketahui secara meluas, oleh itu selalunya lebih baik untuk memilih alternatif bukan lawan dengan prestasi dan keberkesanan latihan yang setara.
Model resapan juga memberikan kelebihan kebolehskalaan dan keselarian dari segi keberkesanan latihan.
Walaupun Model Resapan nampaknya menjana hasil yang nampaknya di luar dugaan, asas untuk keputusan ini diletakkan oleh beberapa keputusan dan kehalusan matematik yang bernas dan menarik, dan amalan terbaik industri masih dibangunkan.
Kesimpulan
Kesimpulannya, penyelidik menunjukkan penemuan sintesis gambar berkualiti tinggi menggunakan model probabilistik resapan, kelas model pembolehubah terpendam yang didorong oleh idea daripada termodinamik bukan keseimbangan.
Mereka telah mencapai perkara yang luar biasa berkat hasil terkini dan latihan bukan musuh mereka dan memandangkan usia mereka masih muda, lebih banyak kemajuan mungkin dijangkakan pada tahun-tahun akan datang.
Khususnya, telah ditemui bahawa model resapan adalah penting untuk kefungsian model lanjutan seperti DALL-E 2.
Di sini anda boleh mengakses penyelidikan lengkap.
Sila tinggalkan balasan anda