Sa bag-ohay nga mga tuig, ang mga generative nga mga modelo nga gitawag og "diffusion models" nahimong mas popular, ug adunay maayo nga hinungdan.
Nakita sa kalibutan kung unsa ang mahimo sa mga modelo sa pagsabwag, sama sa pag-outperform sa mga GAN sa synthesis sa litrato, salamat sa usa ka pinili nga pipila nga mga landmark nga publikasyon nga gipatik sa 2020s & 2021s.
Ang mga practitioner bag-o lang nakakita sa paggamit sa mga modelo sa pagsabwag sa DALL-E2, ang modelo sa paghimo sa imahe sa OpenAI nga gipatik kaniadtong miaging bulan.
Daghang mga practitioner sa Pagkat-on sa Machine walay duhaduha nga mausisa bahin sa sulod nga mga buhat sa Diffusion Models tungod sa ilang bag-o nga pagdagsang sa kalampusan.
Sa kini nga post, atong tan-awon ang theoretical underpinnings of Diffusion Models, ilang disenyo, ilang mga bentaha, ug daghan pa. Manglakaw na ta.
Unsa ang modelo sa Diffusion?
Magsugod kita pinaagi sa paghunahuna kung ngano nga kini nga modelo gitawag nga usa ka modelo sa pagsabwag.
Ang usa ka pulong nga may kalabutan sa thermodynamics sa mga klase sa pisika gitawag nga pagsabwag. Ang usa ka sistema wala sa panimbang kung adunay usa ka dako nga konsentrasyon sa usa ka materyal, sama sa usa ka baho, sa usa ka lokasyon.
Ang pagsabwag kinahanglan mahitabo aron ang sistema makasulod sa equilibrium. Ang mga molekula sa baho mikaylap sa tibuok sistema gikan sa usa ka rehiyon nga mas taas nga konsentrasyon, nga naghimo sa sistema nga uniporme sa tibuok.
Ang tanan sa kadugayan nahimong homogenous tungod sa pagsabwag.
Ang mga modelo sa pagsabwag gipalihok niining thermodynamic non-equilibrium nga kondisyon. Ang mga modelo sa pagsabwag naggamit ug kadena nga Markov, nga usa ka serye sa mga variable diin ang kantidad sa matag variable nagsalig sa kahimtang sa miaging panghitabo.
Pagkuha og litrato, sunodsunod namong gidugang ang usa ka partikular nga gidaghanon sa kasaba niini sa tibuok nga bahin sa pagsabwag sa unahan.
Pagkahuman sa pagtipig sa labi ka saba nga imahe, nagpadayon kami sa paghimo sa sunod nga imahe sa serye pinaagi sa pagpaila sa dugang nga kasaba.
Daghang mga higayon, kini nga pamaagi gihimo. Ang usa ka lunsay nga hulagway sa kasaba resulta sa pagsubli niini nga pamaagi sa pipila ka mga higayon.
Unsaon man nato paghimo og hulagway gikan niining nagkatag nga hulagway?
Ang proseso sa pagsabwag balihon gamit ang a neural network. Ang parehas nga mga network ug parehas nga mga gibug-aton gigamit sa proseso sa pagsabwag sa atras aron mahimo ang litrato gikan sa t hangtod sa t-1.
Imbis nga tugotan ang network nga magpaabut sa litrato, ang usa mahimong mosulay sa pagtagna sa kasaba sa matag lakang, nga kinahanglan tangtangon gikan sa imahe, aron mapasimple ang buluhaton.
Sa bisan unsang senaryo, ang disenyo sa neural network kinahanglan nga pilion sa paagi nga nagmintinar sa data dimensionality.
Deep Dive sa Diffusion Model
Ang mga sangkap sa usa ka modelo sa pagsabwag usa ka proseso sa unahan (nailhan usab nga usa ka proseso sa pagsabwag), diin ang usa ka datum (kasagaran usa ka imahe) anam-anam nga gisaba, ug usa ka balik nga proseso (nailhan usab nga usa ka proseso sa pagsabwag balik), diin ang kasaba gi-convert balik ngadto sa sample gikan sa target distribution.
Kung gamay ra ang lebel sa kasaba, ang mga conditional Gaussians mahimong magamit aron matukod ang mga pagbalhin sa sampling chain sa proseso sa unahan. Ang usa ka dali nga parameterization sa proseso sa unahan nagresulta gikan sa pagdugtong niini nga kahibalo sa Markov assumption:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
dinhi sa usa ka….Ang T usa ka eskedyul sa pagkalainlain (bisan nahibal-an o naayo) nga nagpasalig, alang sa igo nga taas nga T, nga ang xT halos usa ka isotropic nga Gaussian.
Ang kaatbang nga proseso kung diin mahitabo ang diffusion model magic. Ang modelo nakakat-on nga balihon kini nga proseso sa pagsabwag sa panahon sa pagbansay aron makahimo og bag-ong datos. Ang modelo nakakat-on sa hiniusang pag-apod-apod ingon (x0:T) ang resulta sa pagsugod sa puro Gaussian noise equation
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
diin nadiskobrehan ang mga parameter nga nagdepende sa oras sa mga transition sa Gaussian. Sa partikular, timan-i kung giunsa ang pormulasyon ni Markov nag-ingon nga ang gihatag nga reverse diffusion transition distribution nagdepende lamang sa nag-una nga timestep (o sunod nga timestep, depende sa imong pagtan-aw niini):
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Pagbansay sa Modelo
Ang usa ka reverse Markov nga modelo nga nagpadako sa posibilidad sa datos sa pagbansay gigamit sa pagbansay sa usa ka modelo sa pagsabwag. Sa praktikal nga pagsulti, ang pagbansay susama sa pagkunhod sa variational upper bound sa negatibo nga log probability.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modelo
Kinahanglan na nato karon nga magdesisyon kung unsaon pagpatuman ang atong Diffusion Model human maestablisar ang mathematical underpinnings sa atong tumong function. Ang bugtong desisyon nga gikinahanglan alang sa proseso sa unahan mao ang pagtino sa iskedyul sa kalainan, kansang mga kantidad kasagarang mosaka sa panahon sa pamaagi.
Kusganon namo nga gikonsiderar ang paggamit sa Gaussian distribution parameterization ug model architecture para sa reverse procedure.
Ang bugtong kondisyon sa among disenyo mao nga ang input ug ang output adunay parehas nga sukod. Gipasiugda niini ang dako nga ang-ang sa kagawasan nga gihatag sa mga Modelo sa Diffusion.
Sa ubos, kita moadto sa mas lawom nga bahin sa kini nga mga kapilian.
Pagpasa nga Proseso
Kinahanglan natong ihatag ang eskedyul sa kalainan kalabot sa proseso sa unahan. Espesipiko namon nga gibutang kini nga mga kanunay nga nagsalig sa oras ug gibalewala ang posibilidad nga kini makat-unan. Usa ka kronolohikal nga eskedyul gikan sa
β1 = 10−4 ngadto sa βT = 0.02.
Lt nahimong usa ka makanunayon kalabot sa among set sa makat-onan nga mga parametro tungod sa fixed variance schedule, nga nagtugot kanamo sa pagbaliwala niini sa panahon sa pagbansay bisan unsa pa ang piho nga mga bili nga gipili.
Balikbalik nga Proseso
Atong hisgotan karon ang mga desisyon nga gikinahanglan aron mahibal-an ang balik nga proseso. Hinumdomi kung giunsa namo gihulagway ang reverse Markov transition isip Gaussian:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Karon nga nahibal-an na namon ang mga tipo sa pag-andar. Bisan pa sa kamatuoran nga adunay mas komplikado nga mga pamaagi sa pag-parameter, nagtakda lang kami
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Sa laing paagi, atong isipon ang multivariate nga Gaussian nga resulta sa bulag nga mga Gaussian nga adunay parehas nga kalainan, usa ka variance value nga mahimong mag-usab-usab sa paglabay sa panahon. Kini nga mga pagtipas gitakda nga motakdo sa timetable sa pagpasa sa mga pagtipas sa proseso.
Isip resulta niining bag-ong pormulasyon, kami adunay:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Nagresulta kini sa alternate loss function nga gipakita sa ubos, nga nakit-an sa mga tagsulat nga makahimo og mas makanunayon nga pagbansay ug labaw nga mga resulta:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Ang mga tagsulat nagkuha usab og mga koneksyon tali sa kini nga pormulasyon sa mga modelo sa pagsabwag ug mga modelo sa generative nga pagparis nga nakabase sa Langevin. Sama sa independente ug parallel nga pag-uswag sa quantum physics nga nakabase sa balod ug quantum mechanics nga nakabase sa matrix, nga nagpadayag sa duha ka managsama nga mga pormulasyon sa parehas nga mga panghitabo, makita nga ang mga Modelo sa Diffusion ug mga modelo nga Gibase sa Marka mahimo nga duha ka kilid sa parehas nga sensilyo.
Arkitektura sa Network
Bisan pa sa kamatuoran nga ang atong condensed loss function nagtumong sa pagbansay sa usa ka modelo Σθ, wala pa kami nakahukom sa arkitektura niini nga modelo. Hinumdomi nga ang modelo kinahanglan nga adunay parehas nga mga sukat sa input ug output.
Tungod sa kini nga pagpugong, tingali dili damha nga ang mga arkitektura nga sama sa U-Net kanunay nga gigamit sa paghimo og mga modelo sa pagsabwag sa litrato.
Daghang mga pagbag-o ang gihimo subay sa ruta sa reverse nga proseso samtang gigamit ang padayon nga kondisyon nga pag-apod-apod sa Gaussian. Hinumdomi nga ang tumong sa reverse procedure mao ang paghimo og hulagway nga gilangkoban sa integer pixel values. Busa gikinahanglan ang pagdeterminar sa discrete (log) nga posibilidad alang sa matag potensyal nga pixel value sa tanang pixel.
Nahimo kini pinaagi sa pag-assign ug bulag nga discrete decoder sa katapusang transisyon sa reverse diffusion chain. pagbanabana sa kahigayonan sa usa ka larawan x0 gihatag x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ kon x = 1 x + 1 255 kon x < 1 δ−(x) = −∞ kon x = −1 x − 1 255 kon x > −1
diin ang superscript nga I nagpaila sa pagkuha sa usa ka coordinate ug ang D nagpasabot sa gidaghanon sa mga dimensyon sa datos.
Ang tumong niini nga punto mao ang pag-establisar sa kalagmitan sa matag integer nga bili alang sa usa ka piho nga pixel nga gihatag sa pag-apod-apod sa mga potensyal nga mga bili alang niana nga pixel sa panahon-varying. t=1.
Katapusan nga Tumong
Ang pinakadako nga resulta, sumala sa mga siyentipiko, gikan sa pagtagna sa kasaba nga bahin sa usa ka hulagway sa usa ka piho nga timestep. Sa katapusan, gigamit nila ang mosunod nga katuyoan:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Sa mosunud nga imahe, ang mga pamaagi sa pagbansay ug sampling alang sa among modelo sa pagsabwag mubo nga gihulagway:
Mga Kaayohan sa Modelo sa Pagsabwag
Sama sa gipakita na, ang gidaghanon sa panukiduki sa mga modelo sa pagsabwag midaghan bag-o lang. Ang Diffusion Models karon naghatod sa State-of-the-Art nga kalidad sa imahe ug giinspirar sa non-equilibrium thermodynamics.
Ang mga Modelo sa Diffusion naghatag ug lainlain nga ubang mga bentaha dugang pa sa pagbaton sa labing maayo nga kalidad sa litrato, sama sa wala kinahanglana nga pagbansay sa kontra.
Ang mga disbentaha sa adversarial nga pagbansay kay kaylap nga nahibal-an, busa mas maayo nga mopili sa dili adversarial nga mga alternatibo nga adunay katumbas nga performance ug pagkaepektibo sa pagbansay.
Ang mga modelo sa pagsabwag naghatag usab sa mga bentaha sa scalability ug parallelizability sa termino sa pagkaepektibo sa pagbansay.
Bisan kung ang mga Modelo sa Pagsabwag makita nga makamugna og mga resulta nga daw gikan sa manipis nga hangin, ang basehan alang niini nga mga resulta gipahimutang sa usa ka gidaghanon sa mga mahunahunaon ug makapaikag nga mga desisyon sa matematika ug mga subtlety, ug ang labing maayo nga mga buhat sa industriya gipalambo pa.
Panapos
Sa konklusyon, ang mga tigdukiduki nagpakita sa taas nga kalidad nga picture synthesis findings nga naggamit sa diffusion probabilistic models, usa ka klase sa latent variable nga mga modelo nga gipalihok sa mga ideya gikan sa nonequilibrium thermodynamics.
Nakab-ot nila ang dagkong mga butang salamat sa ilang State-of-the-Art nga mga resulta ug non-adversarial nga pagbansay ug tungod sa ilang pagkamasuso, mas daghang pag-uswag ang mahimong mapaabut sa umaabot nga mga tuig.
Ilabi na, nadiskobrehan nga ang mga modelo sa pagsabwag hinungdanon sa pagpaandar sa mga advanced nga modelo sama sa DALL-E 2.
dinhi ma-access nimo ang kompleto nga panukiduki.
Leave sa usa ka Reply