Yn 'e ôfrûne jierren binne generative modellen neamd "diffusionmodellen" wurden hieltyd populêrder, en mei goede oarsaak.
De wrâld hat sjoen wêr ta diffusiemodellen yn steat binne, lykas it better prestearjen fan GAN's op ôfbyldingsynteze, tanksij in selekte pear landmark-publikaasjes publisearre krekt yn 'e 2020's en 2021's.
Beoefeners seagen meast resint it gebrûk fan diffusiemodellen yn DALL-E2, OpenAI's model foar oanmeitsjen fan ôfbyldings dat ferline moanne waard publisearre.
In protte Machine Learning-beoefeners binne sûnder mis nijsgjirrich nei de ynderlike wurking fan Diffusion Models sjoen har resinte opwining fan sukses.
Yn dit post sille wy sjen nei de teoretyske ûnderbou fan Diffusion Models, har ûntwerp, har foardielen, en folle mear. Lit ús gean.
Wat is it Diffusion model?
Litte wy begjinne mei út te finen wêrom't dit model wurdt oantsjut as in diffusion model.
In wurd dat relatearre is oan thermodynamika yn natuerkundeklassen wurdt diffusion neamd. In systeem is net yn lykwicht as d'r in grutte konsintraasje fan in materiaal is, lykas in geur, op ien lokaasje.
Diffúsje moat foarkomme foar it systeem om yn lykwicht te kommen. De molekulen fan 'e geur diffúsje troch it systeem út in regio fan in hegere konsintraasje, wêrtroch it systeem troch it heule unifoarm is.
Alles wurdt úteinlik homogeen troch diffusion.
Diffusjonsmodellen wurde motivearre troch dizze termodynamyske net-lykwichtsbetingst. Diffusion modellen brûke in Markov keten, dat is in rige fan fariabelen dêr't eltse fariabele syn wearde fertrout op de steat fan de foarige evenemint.
Troch in foto te nimmen, foegje wy opienfolgjend in bepaalde hoemannichte lûd ta yn 'e heule foarútdiffusjonsfaze.
Nei it opslaan fan it lûder byld, geane wy troch mei it meitsjen fan it folgjende byld yn 'e searje troch ekstra lûd yn te fieren.
Ferskate kearen wurdt dizze proseduere dien. In suver lûd byld resultaat út it werheljen fan dizze metoade in pear kear.
Hoe kinne wy dan in foto meitsje fan dit rommelige byld?
De diffusion proses wurdt omkeard mei help fan in neuronale netwurk. Deselde netwurken en deselde gewichten wurde brûkt yn de efterút diffusion proses foar it meitsjen fan it byld fan t nei t-1.
Ynstee fan it netwurk it byld antisipearje te litten, kin men besykje it lûd te foarsizzen by elke stap, dy't út it byld fuortsmiten wurde moat, om de taak fierder te ferienfâldigjen.
Yn alle senario, de neural netwurk design moat selektearre wurde op in manier dy't behâldt gegevens dimensionality.
Djip Dûk yn Diffusion Model
De komponinten fan in diffúsjemodel binne in foarútgongsproses (ek bekend as in diffúsjeproses), wêrby't in datum (faak in byld) stadichoan ruis wurdt, en in omkearde proses (ek wol in omkeardiffusjonsproses neamd), wêrby't lûd wurdt omboud werom yn in stekproef út de doelferdieling.
As it lûdsnivo leech genôch is, kinne betingsten Gaussianen brûkt wurde om de oergongen fan samplingketen yn it foarútproses te fêstigjen. In maklike parameterisaasje fan it foarútproses resultaat út it keppeljen fan dizze kennis mei de Markov-ferûnderstelling:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
hjir ien….T is in fariânsjeskema (sawol leard as fêst) dat garandearret, foar foldwaande hege T, dat xT praktysk in isotropyske Gaussiaansk is.
It tsjinoerstelde proses is wêr't diffúsjemodel magy bart. It model leart dit ferspriedingsproses te kearen tidens training om frisse gegevens te produsearjen. It model leart de mienskiplike ferdieling as (x0:T) it resultaat fan begjinnen mei de suvere Gaussyske lûdfergeliking
(xT):=N(xT,0,I).
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
dêr't de tiid-ôfhinklike parameters fan de Gaussyske transysjes ûntdutsen wurde. Nim benammen nota fan hoe't de Markov-formulering stelt dat in opjûne distribúsje fan omkearde diffusion-oergong eksklusyf ôfhinklik is fan 'e foarige tiidstap (of folgjende tiidstap, ôfhinklik fan hoe't jo it sjogge):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Model Training
In omkearde Markov-model dat de kâns fan 'e treningsgegevens maksimaleart wurdt brûkt om in diffusionsmodel te trenen. Praktysk sprutsen, training is analoog oan it ferminderjen fan de fariaasje boppegrins op de negative log kâns.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T) q(x1:T |x0) = Eq − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modellen
Wy moatte no beslute hoe't wy ús Diffusion Model útfiere nei it fêststellen fan de wiskundige ûnderbou fan ús doelfunksje. It ienige beslút dat nedich is foar it foarútproses is it bepalen fan it fariânsjeskema, wêrfan de wearden typysk opkomme tidens de proseduere.
Wy beskôgje sterk it brûken fan de Gaussiaanske distribúsjeparameterisaasje en modelarsjitektuer foar de omkearde proseduere.
De ienige betingst fan ús ûntwerp is dat sawol de ynfier as de útfier deselde dimensjes hawwe. Dit ûnderstreket de enoarme graad fan frijheid dy't Diffusion Models jouwe.
Hjirûnder sille wy yn gruttere djipte gean oer dizze opsjes.
Foarút proses
Wy moatte it fariânsjeskema leverje yn relaasje ta it foarútproses. Wy hawwe se spesifyk ynsteld om tiidôfhinklike konstanten te wêzen en negeare de mooglikheid dat se leard wurde kinne. In gronologyske skema út
β1 = 10−4 oant βT = 0.02.
Lt wurdt in konstante mei respekt foar ús set fan learbere parameters fanwege it fêste fariânsjeskema, wêrtroch wy it kinne negearje tidens training nettsjinsteande de spesifike wearden dy't selekteare binne.
Omkearde proses
Wy geane no oer de besluten dy't nedich binne om it omkearde proses te definiearjen. Unthâld hoe't wy de omkearde Markov-oergongen as Gaussiaansk beskreaun hawwe:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
No hawwe wy de funksjonele soarten identifisearre. Nettsjinsteande it feit dat d'r mear yngewikkelde techniken binne om te parameterisearjen, sette wy gewoan
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Om it oars te sizzen, beskôgje wy it mearfariate Gaussysk as it resultaat fan aparte Gaussianen mei deselde fariânsje, in fariânsjewearde dy't oer de tiid fluktuearje kin. Dizze ôfwikingen binne ynsteld om te passen by it skema fan ôfwikingen fan it trochstjoerproses.
As gefolch fan dizze nije formulearring, Wy hawwe:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dit resulteart yn 'e alternative ferliesfunksje hjirûnder werjûn, dy't de auteurs fûnen om mear konsekwinte training en superieure resultaten te produsearjen:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
De skriuwers lûke ek ferbinings tusken dizze formulearring fan diffusion modellen en Langevin-basearre skoare-matching generative modellen. Lykas by de ûnôfhinklike en parallelle ûntwikkeling fan wave-basearre kwantumfysika en matrix-basearre kwantummeganika, dy't twa fergelykbere formulearringen fan deselde ferskynsels iepenbiere, docht bliken dat Diffusion Models en Score-Based modellen twa kanten fan deselde munt kinne wêze.
Network Architecture
Nettsjinsteande it feit dat ús kondinsearre ferliesfunksje as doel hat om in model te trenen Σθ, Wy hawwe noch net besletten oer de arsjitektuer fan dit model. Hâld der rekken mei dat it model gewoan deselde ynput- en útfierdimensjes moat hawwe.
Sjoen dizze beheining is it wierskynlik net ûnferwachts dat U-Net-like arsjitektueren faak wurde brûkt om ôfbyldingsdiffusjonsmodellen te meitsjen.
Tal fan feroarings wurde makke lâns de rûte fan it omkearde proses by it brûken fan trochgeande betingsten Gaussiaanske distribúsjes. Unthâld dat it doel fan 'e omkearde proseduere is om in ôfbylding te meitsjen dy't bestiet út heule pikselwearden. It bepalen fan diskrete (log) kânsen foar elke potinsjele pikselwearde oer alle piksels is dêrom needsaaklik.
Dit wurdt dien troch it tawizen fan in aparte diskrete dekoder oan de lêste oergong fan 'e omkearde diffusionsketting. it skatten fan de kâns op in bepaald byld x0 jûn x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ as x = 1 x + 1 255 as x < 1 δ−(x) = −∞ as x = −1 x − 1 255 as x > −1
wêr't it boppeskrift I de ekstraksje fan ien koördinaat oanjout en D it oantal diminsjes yn 'e gegevens oanjout.
It doel op dit punt is om de kâns te fêstigjen fan elke heule getalwearde foar in spesifike piksel jûn de ferdieling fan potinsjele wearden foar dat piksel yn 'e tiidferoarjende t=1.
Finale doelstelling
De grutste útkomsten, neffens wittenskippers, kamen út it foarsizzen fan de lûdskomponint fan in foto op in bepaalde tiidstap. Uteinlik brûke se it folgjende doel:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Yn 'e folgjende ôfbylding binne de training- en samplingprosedueres foar ús diffusionmodel koart ôfbylde:
Foardielen fan Diffusion Model
Lykas al oanjûn, is de hoemannichte ûndersyk nei diffusiemodellen de lêste tiid fermannichfâldige. Diffusionsmodellen leverje no State-of-the-Art byldkwaliteit en wurde ynspireare troch net-lykwichtige thermodynamika.
Diffusjonsmodellen jouwe in ferskaat oan oare foardielen neist it hawwen fan cutting-edge byldkwaliteit, lykas gjin adversariële training nedich.
De neidielen fan adversariële training binne rûnom bekend, dêrom is it faak de foarkar om net-adversariële alternativen te kiezen mei lykweardige prestaasjes en trainingseffektiviteit.
Diffusjonsmodellen jouwe ek de foardielen fan skalberens en parallelizabiliteit yn termen fan trainingseffektiviteit.
Hoewol't Diffusion Models lykje te generearjen útkomsten skynber út 'e loft, de basis foar dizze resultaten wurdt lein troch in oantal trochtochte en nijsgjirrige wiskundige besluten en subtiliteiten, en yndustry best practices wurde noch ûntwikkele.
Konklúzje
As konklúzje demonstrearje ûndersikers befinings fan hege kwaliteit byldsynteze mei gebrûk fan probabilistyske modellen fan diffusion, in klasse fan latinte fariabele modellen motivearre troch ideeën út net-lykwichtige thermodynamika.
Se hawwe enoarme dingen berikt tanksij har State-of-the-Art-resultaten en net-adversariële training en sjoen har bernejierren kinne mear foarútgongen wurde ferwachte yn 'e kommende jierren.
Benammen is it ûntdutsen dat diffusiemodellen krúsjaal binne foar de funksjonaliteit fan avansearre modellen lykas DALL-E 2.
hjir jo kinne tagong krije ta it folsleine ûndersyk.
Leave a Reply