Tao anatin'ny taona vitsivitsy izay, nanjary nalaza be ny modely generative antsoina hoe "modely diffusion", ary misy antony tsara.
Hitan'izao tontolo izao izay hain'ny maodely fanaparitahana, toy ny GAN amin'ny fampisehoana sary, noho ny famoaham-boky manan-tantara vitsivitsy navoaka tamin'ny taona 2020 sy 2021.
Hitan'ny mpitsabo vao haingana ny fampiasana modely diffusion in DALL-E2, modely famoronana sary an'ny OpenAI izay navoaka tamin'ny volana lasa.
Maro amin'ireo mpitsabo amin'ny Machine Learning no tsy isalasalana fa liana amin'ny fiasan'ny Diffusion Models noho ny fahombiazany vao haingana.
Ato amin'ity lahatsoratra ity, hojerentsika ny foto-kevitra fototra momba ny Diffusion Models, ny endriny, ny tombony, ary ny maro hafa. Andao handeha.
Inona ny modely Diffusion?
Andeha hojerentsika hoe nahoana io modely io no antsoina hoe modely diffusion.
Ny teny mifandraika amin'ny thermodynamika amin'ny kilasy fizika dia antsoina hoe diffusion. Tsy mitombina ny rafitra iray raha misy fifantohana lehibe amin'ny fitaovana iray, toy ny fofona, amin'ny toerana iray.
Ny diffusion dia tsy maintsy atao mba hidiran'ny rafitra ny equilibrium. Miparitaka manerana ny rafitra ny molekiolan'ny fofona avy amin'ny faritra misy fifantohana ambony kokoa, ka mahatonga ny rafitra ho fanamiana manerana ny rafitra.
Ny zava-drehetra amin'ny farany dia lasa homogene noho ny diffusion.
Ny modelin'ny diffusion dia entanin'ity toe-javatra tsy misy equilibrium thermodynamika ity. Ny modely diffusion dia mampiasa rojo Markov, izay andian-taranaka izay iankinan'ny sanda tsirairay amin'ny toe-javatra nisy teo aloha.
Rehefa maka sary isika, dia ampianay misesisesy ny tabataba manokana mandritra ny diffusion mandroso.
Aorian'ny fitehirizana ny sary mitabataba dia miroso amin'ny famoronana ny sary manaraka ao anatin'ilay andiany isika amin'ny fampidirana feo fanampiny.
Imbetsaka no atao io fomba fiasa io. Ny sary mitabataba madio dia vokatry ny famerimberenana io fomba io imbetsaka.
Ahoana ary no ahafahantsika mamorona sary avy amin'io sary mikorontana io?
Ny diffusion dia averina amin'ny fampiasana a ny tambazotran'ny fahasalamana. Ireo tambajotra mitovy sy mitovy lanja no ampiasaina amin'ny fizotry ny diffusion mihemotra mba hamoronana sary manomboka amin'ny t ka hatramin'ny t-1.
Raha tokony hamela ny tambajotra hiandry ny sary, dia afaka manandrana maminavina ny tabataba isaky ny dingana, izay tsy maintsy esorina amin'ny sary, mba hanatsorana bebe kokoa ny asa.
Amin'ny toe-javatra rehetra, ny famolavolana tambajotra neural tsy maintsy voafantina amin'ny fomba mitazona ny haben'ny angona.
Dive lalina ao amin'ny Diffusion Model
Ny singa ao amin'ny maodely diffusion dia dingana mandroso (fantatra ihany koa amin'ny hoe diffusion process), izay misy datum (matetika sary) mitabataba tsikelikely, ary dingana mivadika (fantatra ihany koa amin'ny hoe diffusion mivadika), izay misy tabataba. avadika ho santionany avy amin'ny fizarana kendrena.
Rehefa ambany ny haavon'ny tabataba, dia azo ampiasaina ny Gaussians misy fepetra mba hametrahana ny fifindran'ny rojo santionany amin'ny dingana mandroso. Ny famaritana mora amin'ny dingana mandroso dia vokatry ny fampifangaroana io fahalalana io amin'ny fiheverana Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
eto 1 ....T dia fandaharam-potoana miovaova (na fianarana na raikitra) izay manome antoka, ho an'ny T avo ampy, fa ny xT dia saika Gaussian isotropika.
Ny dingana mifanohitra amin'izany dia ny fisian'ny diffusion model magic. Ny modely dia mianatra mamadika an'io dingan'ny fanaparitahana io mandritra ny fiofanana mba hamokarana angona vaovao. Ny modely dia mianatra ny fizarana iombonana toy ny (x0:T) ny vokatry ny manomboka amin'ny Gaussian noise equation madio
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
izay ahitana ny masontsivana miankina amin'ny fotoanan'ny tetezamita Gaussian. Mariho manokana ny fomba nilazan'ny formulation Markov fa miankina amin'ny dingana teo aloha (na ny dingana manaraka, miankina amin'ny fomba fijerinao azy) ny fizarana fifindran'ny diffusion mivadika.
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Model Training
Modely Markov mivadika izay mampitombo ny mety hisian'ny angon-drakitra fanofanana dia ampiasaina hanofanana modely diffusion. Amin'ny ankapobeny, ny fampiofanana dia mitovy amin'ny fampihenana ny fetra ambony miovaova amin'ny mety ho lozisialy ratsy.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Models
Mila manapa-kevitra isika izao ny fomba hanatanterahana ny Modely Diffusion aorian'ny fametrahana ny fototry ny matematika amin'ny tanjontsika. Ny hany fanapahan-kevitra ilaina amin'ny fizotry ny fandrosoana dia ny mamaritra ny fandaharam-potoanan'ny tsy fitovian-kevitra, izay matetika miakatra ny sandany mandritra ny dingana.
Heverintsika fatratra ny fampiasana ny mari-pamantarana fizarana Gaussian sy ny maritrano modely ho an'ny fomba fanodinana.
Ny hany fepetra amin'ny famolavolanay dia samy manana ny refy ny fidirana sy ny fivoahana. Izany dia manasongadina ny haavon'ny fahalalahana lehibe omen'ny Diffusion Models.
Ity ambany ity dia handeha lalindalina kokoa momba ireo safidy ireo isika.
Dingana mandroso
Tsy maintsy manome ny fandaharam-potoana fiovaovana mifandraika amin'ny dingana mandroso isika. Napetrakay manokana ho tsy miova miankina amin'ny fotoana izy ireo ary tsy noraharahaina ny mety hianarana azy ireo. Fandaharana ara-potoana avy amin'ny
β1 = 10−4 hatramin'ny βT = 0.02.
Lt dia lasa tsy miova amin'ny andiam-pandrefesana azo ianarana noho ny fandaharam-potoana miovaova, mamela antsika tsy hiraharaha izany mandritra ny fiofanana na inona na inona soatoavina voafantina.
Mivadika dingana
Andeha isika izao handinika ny fanapahan-kevitra ilaina mba hamaritana ny dingana mifamadika. Tsarovy ny fomba namaritanay ny fiovan'ny Markov mivadika ho Gaussian:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Amin'izao fotoana izao dia fantatray ireo karazana fonctionnaire. Na dia eo aza ny zava-misy fa misy teknika be pitsiny kokoa ny parameterize, dia nametraka fotsiny
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Raha lazaina amin'ny fomba hafa, dia heverintsika fa ny Gaussian multivariate dia vokatry ny Gaussians misaraka miaraka amin'ny tsy fitoviana mitovy, ny sandan'ny variance izay mety hiovaova arakaraka ny fotoana. Ireo fiviliana ireo dia natao hifanaraka amin'ny fandaharam-potoanan'ny fivilian-dàlana amin'ny fandefasana.
Vokatr'io fandrafetana vaovao io, manana isika:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Izany dia miteraka ny asa fatiantoka hafa aseho eto ambany, izay hitan'ny mpanoratra fa mamokatra fiofanana tsy miovaova sy vokatra tsara kokoa:
Ltsotra(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Ny mpanoratra ihany koa dia manisy fifandraisana misy eo amin'ity famolavolana modely fanaparitahana ity sy ny maodely generative mifanentana amin'ny isa mifototra amin'i Langevin. Tahaka ny amin'ny fivoarana mahaleo tena sy mifanitsy amin'ny fizika quantum mifototra amin'ny onjam-peo sy ny mekanika quantum mifototra amin'ny matrix, izay naneho endrika roa mitovy amin'ny trangan-javatra mitovy, dia hita fa ny Diffusion Models sy ny Score-Based models dia mety ho lafiny roa amin'ny vola madinika iray ihany.
Network Architecture
Na dia eo aza ny zava-misy fa ny condensed fatiantoka asa mikendry ny hampiofana modely Σθ, mbola tsy nanapa-kevitra momba ny maritrano an'ity modely ity izahay. Ataovy ao an-tsaina fa ny modely dia tsy maintsy manana refy fidirana sy fivoahana mitovy.
Noho io teritery io, dia azo inoana fa tsy ampoizina fa ny maritrano mitovy amin'ny U-Net dia matetika ampiasaina hamoronana modely fanaparitahana sary.
Fiovana maro no atao eo amin'ny lalan'ny fizotry ny fihodinana rehefa mampiasa fizarana Gaussian misy fepetra mitohy. Tsarovy fa ny tanjon'ny dingana mivadika dia ny mamorona sary voaforona amin'ny sandan'ny piksel integer. Ilaina noho izany ny famaritana ny mety (log) ho an'ny sandan'ny piksel tsirairay amin'ny piksel rehetra.
Tanteraka izany amin'ny alalan'ny fametrahana decoder discrete misaraka amin'ny tetezamita farany amin'ny rojo diffusion mivadika. manombatombana ny vintana amin'ny sary iray x0 nomena x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ raha x = 1 x + 1 255 raha x < 1 δ−(x) = −∞ raha x = −1 x − 1 255 raha x > −1
izay ny superscript I dia manondro ny fitrandrahana ny fandrindrana iray ary ny D dia manondro ny isan'ny refy ao amin'ny data.
Ny tanjona amin'ity fotoana ity dia ny fametrahana ny mety ho sanda integer tsirairay ho an'ny piksel iray manokana nomena ny fizarana ny sanda mety ho an'io piksel io amin'ny fiovan'ny fotoana. t=1.
Tanjona farany
Ny vokatra lehibe indrindra, araka ny filazan'ny mpahay siansa, dia avy amin'ny faminaniany ny singa misy feo amin'ny sary iray amin'ny dingana iray. Amin'ny farany dia mampiasa ity tanjona manaraka ity izy ireo:
Ltsotra(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Amin'ity sary manaraka ity dia aseho amin'ny fomba fohy ny fomba fanofanana sy fanaovana santionany ho an'ny modely diffusion:
Tombontsoa amin'ny Model Diffusion
Araka ny efa voalaza, dia nitombo ny habetsahan'ny fikarohana momba ny modely diffusion tato ho ato. Ny Diffusion Models izao dia manome ny kalitaon'ny sary manara-penitra ary aingam-panahy avy amin'ny thermodynamika tsy equilibrium.
Ny Diffusion Models dia manome tombony hafa isan-karazany ankoatry ny fananana sary manara-penitra, toy ny tsy ilana fiofanana amin'ny mpifanandrina.
Ny tsy fahampian'ny fiofanana amin'ny mpifanandrina dia fantatra betsaka, noho izany dia tsara kokoa ny misafidy ireo safidy tsy miady amin'ny fahombiazana mitovy amin'izany sy ny fahombiazan'ny fiofanana.
Ny modely diffusion koa dia manome tombony amin'ny scalability sy parallelizability amin'ny lafiny fahombiazan'ny fiofanana.
Na dia toa miteraka vokatra toa avy amin'ny rivotra manify aza ny Diffusion Models, ny fototry ireo valiny ireo dia apetraka amin'ny fanapahan-kevitra sy haingo matematika marobe sy mahaliana, ary ny fanao tsara indrindra amin'ny indostria dia mbola novolavolaina.
Famaranana
Ho fehin-kevitra, ny mpikaroka dia mampiseho ny fikarohana synthesis sary avo lenta amin'ny alàlan'ny diffusion probabilistic models, kilasin'ny maodely miovaova latent atosiky ny hevitra avy amin'ny thermodynamics nonequilibrium.
Nahavita zavatra goavana izy ireo noho ny vokatra ara-javakanto sy ny fiofanana tsy misy fahavalo ary noho ny fahazazany, dia mety hisy fandrosoana bebe kokoa amin'ny taona ho avy.
Indrindra indrindra, hita fa ny maodely diffusion dia tena ilaina amin'ny fiasan'ny maodely mandroso toa ny DALL-E 2.
eto afaka miditra amin'ny fikarohana feno ianao.
Leave a Reply