Bab lan Paragraf[Singidaken][Tampilake]
Ing taun-taun pungkasan, model generatif sing disebut "model difusi" dadi tambah populer, lan kanthi alasan sing apik.
Donya wis ndeleng apa sing bisa ditindakake model difusi, kayata GAN sing unggul ing sintesis gambar, amarga sawetara publikasi landmark sing diterbitake mung ing taun 2020-an & 2021-an.
Praktisi paling anyar weruh panggunaan model difusi ing DALL-E2, model nggawe gambar OpenAI sing diterbitake sasi kepungkur.
Akeh praktisi Machine Learning temtunipun kepengin weruh babagan cara kerja Model Difusi amarga sukses sing anyar.
Ing kirim iki, kita bakal nliti dhasar teoretis Model Difusi, desaine, kaluwihan, lan liya-liyane. Ayo budhal.
Apa model Difusi?
Ayo diwiwiti kanthi ngerteni sebabe model iki diarani model difusi.
Tembung sing ana hubungane karo termodinamika ing kelas fisika diarani difusi. Sistem ora ana ing keseimbangan yen ana konsentrasi gedhe saka materi, kaya aroma, ing sawijining lokasi.
Difusi kudu kedadeyan supaya sistem bisa mlebu keseimbangan. Molekul-molekul aroma nyebar ing saindhenging sistem saka wilayah konsentrasi sing luwih dhuwur, nggawe sistem seragam ing saindhenging.
Kabeh pungkasane dadi homogen amarga difusi.
Model difusi dimotivasi dening kondisi non-keseimbangan termodinamika iki. Model difusi nggunakake rantai Markov, yaiku seri variabel sing saben nilai variabel gumantung marang kahanan acara sadurunge.
Njupuk gambar, kita terus-terusan nambah jumlah swara tartamtu ing saindhenging fase difusi maju.
Sawise nyimpen gambar rame, kita nerusake kanggo nggawe gambar sakteruse ing seri dening ngenalke gangguan tambahan.
Kaping pirang-pirang, prosedur iki ditindakake. Gambar swara murni asil saka mbaleni cara iki kaping pirang-pirang.
Kepiye carane bisa nggawe gambar saka gambar sing cluttered iki?
Proses difusi dibalik nggunakake a jaringan saraf. Jaringan sing padha lan bobot sing padha digunakake ing proses difusi mundur kanggo nggawe gambar saka t nganti t-1.
Tinimbang supaya jaringan antisipasi gambar, siji bisa nyoba kanggo prédhiksi gangguan ing saben langkah, kang kudu dibusak saka gambar, supaya luwih menakake tugas.
Ing skenario apa wae, ing desain jaringan syaraf kudu dipilih kanthi cara sing njaga dimensi data.
Deep Dive menyang Model Difusi
Komponen saka model difusi yaiku proses maju (uga dikenal minangka proses difusi), sing datum (asring gambar) dibuwang kanthi bertahap, lan proses mbalikke (uga dikenal minangka proses difusi terbalik), ing ngendi gangguan diowahi maneh dadi sampel saka distribusi target.
Nalika tingkat gangguan cukup kurang, Gaussians kondisional bisa digunakake kanggo netepake transisi chain sampling ing proses maju. Parameterisasi gampang saka proses maju asil saka nggabungake kawruh iki karo asumsi Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
kene lima….T minangka jadwal varians (bisa sinau utawa tetep) sing njamin, kanggo T sing cukup dhuwur, yen xT minangka Gaussian isotropik.
Proses ngelawan yaiku ing ngendi sihir model difusi kedadeyan. Model sinau kanggo mbalikke proses difusi iki sajrone latihan supaya bisa ngasilake data anyar. Model sinau distribusi gabungan minangka (x0:T) asil saka miwiti karo persamaan gangguan Gaussian murni
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
ing ngendi paramèter gumantung wektu transisi Gaussian ditemokake. Utamane, elinga carane formulasi Markov nyatakake yen distribusi transisi difusi mbalikke gumantung mung ing timestep sadurunge (utawa timestep sakteruse, gumantung saka cara sampeyan ndeleng):
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Latihan Model
Model Markov mbalikke sing ngoptimalake kemungkinan data latihan digunakake kanggo nglatih model difusi. Praktis ngandika, latihan iku analog kanggo ngurangi wates ndhuwur variasi ing probabilitas log negatif.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
model
Saiki kita kudu mutusake carane nglakokake Model Difusi sawise nggawe dhasar matematika saka fungsi tujuan kita. Kaputusan siji-sijine sing dibutuhake kanggo proses maju yaiku nemtokake jadwal varians, sing nilai biasane mundhak sajrone prosedur kasebut.
Kita banget nimbang nggunakake parameterisasi distribusi Gaussian lan arsitektur model kanggo prosedur mbalikke.
Sawijining syarat desain kita yaiku input lan output duwe dimensi sing padha. Iki negesake tingkat kebebasan sing gedhe banget sing diwenehake Model Difusi.
Ing ngisor iki, kita bakal luwih jero babagan pilihan kasebut.
Proses Maju
Kita kudu nyedhiyakake jadwal bedo sing ana hubungane karo proses maju. Kita khusus nyetel dadi konstanta sing gumantung ing wektu lan ora nggatekake kemungkinan bisa dipelajari. A jadwal kronologis saka
β1 = 10−4 nganti βT = 0.02.
Lt dadi konstan babagan paramèter sing bisa disinaoni amarga jadwal varian sing tetep, saéngga kita ora nglirwakake nalika latihan preduli saka nilai tartamtu sing dipilih.
Proses mbalikke
Saiki kita nerusake keputusan sing dibutuhake kanggo nemtokake proses mbalikke. Elinga carane kita nerangake transisi Markov mbalikke minangka Gaussian:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Saiki kita wis nemtokake jinis fungsional. Senadyan kasunyatan manawa ana teknik sing luwih rumit kanggo paramèter, kita mung nyetel
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Kanthi cara liya, kita nganggep Gaussian multivariate minangka asil saka Gaussian sing kapisah kanthi varian sing padha, nilai varian sing bisa fluktuasi saka wektu. Penyimpangan iki disetel kanggo cocog karo jadwal panyimpangan proses nerusake.
Minangka asil saka formulasi anyar iki, kita duwe:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Iki nyebabake fungsi mundhut alternatif sing ditampilake ing ngisor iki, sing ditemokake penulis ngasilake latihan sing luwih konsisten lan asil sing unggul:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Penulis uga nggawe sambungan antarane formulasi model difusi lan model generatif sing cocog karo skor adhedhasar Langevin. Minangka karo pangembangan independen lan podo karo fisika kuantum basis gelombang lan mekanika kuantum basis matriks, kang dicethakaké ana loro formulasi iso dibandhingke saka fénoména padha, katon model Difusi lan Score-Based model bisa dadi loro-lorone saka duwit receh padha.
Arsitektur Jaringan
Senadyan kasunyatan sing fungsi mundhut condensed kita yakuwi kanggo olahraga model Σθ, kita isih durung mutusake babagan arsitektur model iki. Elinga yen model mung kudu duwe dimensi input lan output sing padha.
Amarga kendala iki, mbokmenawa ora dikarepke yen arsitektur kaya U-Net kerep digunakake kanggo nggawe model difusi gambar.
Akeh owah-owahan sing ditindakake ing rute proses mbalikke nalika nggunakake distribusi Gaussian kondisional sing terus-terusan. Elinga yen tujuan prosedur mbalikke yaiku nggawe gambar sing digawe saka nilai piksel integer. Nemtokake kemungkinan diskret (log) kanggo saben nilai piksel potensial saka kabeh piksel perlu.
Iki ditindakake kanthi menehi dekoder diskrit sing kapisah menyang transisi pungkasan rantai difusi terbalik. ngira kasempatan saka gambar tartamtu x0 diwenehi x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ yen x = 1 x + 1 255 yen x < 1 δ−(x) = −∞ yen x = −1 x − 1 255 yen x > −1
ing ngendi superscript I nuduhake ekstraksi siji koordinat lan D nuduhake jumlah dimensi ing data.
Tujuan ing titik iki yaiku kanggo nemtokake kemungkinan saben nilai integer kanggo piksel tartamtu diwenehi distribusi nilai potensial kanggo piksel kasebut ing wektu sing beda-beda. t=1.
Tujuan Akhir
Asil paling gedhe, miturut ilmuwan, teka saka prakiraan komponen swara saka gambar ing timestep tartamtu. Pungkasane, dheweke nggunakake tujuan ing ngisor iki:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Ing gambar ing ngisor iki, prosedur latihan lan sampling kanggo model difusi kita digambarake kanthi ringkes:
Paedah Model Difusi
Kaya sing wis dituduhake, jumlah riset babagan model difusi wis tambah akeh. Model Difusi saiki nyedhiyakake kualitas gambar sing paling canggih lan diilhami dening termodinamika non-keseimbangan.
Model Difusi nyedhiyakake macem-macem kaluwihan liyane saliyane nduweni kualitas gambar sing canggih, kayata ora mbutuhake latihan mungsuh.
Kelemahane latihan adversarial wis umum dikenal, mula luwih becik milih alternatif non-musuh kanthi kinerja sing padha lan efektifitas latihan.
Model difusi uga menehi kaluwihan saka skalabilitas lan parallelizabilitas ing babagan efektifitas latihan.
Sanajan Model Difusi katon ngasilake asil sing katon saka hawa sing tipis, dhasar kanggo asil kasebut ditemtokake dening sawetara keputusan lan subtleties matematika sing apik lan menarik, lan praktik paling apik ing industri isih dikembangake.
kesimpulan
Kesimpulane, peneliti nduduhake temuan sintesis gambar kanthi kualitas dhuwur nggunakake model probabilistik difusi, kelas model variabel laten sing dimotivasi dening gagasan saka termodinamika nonequilibrium.
Dheweke wis entuk prekara sing luar biasa amarga asile State-of-the-Art lan latihan non-musuh lan amarga isih bayi, luwih akeh kemajuan bisa diantisipasi ing taun-taun sing bakal teka.
Utamane, wis ditemokake manawa model difusi penting banget kanggo fungsi model maju kaya DALL-E 2.
kene sampeyan bisa ngakses riset lengkap.
Ninggalake a Reply