Sa mga nakalipas na taon, ang mga generative na modelo na tinatawag na "diffusion models" ay lalong naging popular, at may magandang dahilan.
Nakita ng mundo kung ano ang kaya ng mga diffusion model, gaya ng pag-outperform ng mga GAN sa picture synthesis, salamat sa ilang piling landmark publication na na-publish noong 2020s at 2021s lang.
Nakita ng mga practitioner kamakailan ang paggamit ng mga diffusion model sa DALL-E2, modelo ng paglikha ng imahe ng OpenAI na na-publish noong nakaraang buwan.
Maraming mga practitioner ng Machine Learning ang walang alinlangan na interesado tungkol sa mga panloob na gawain ng Mga Modelo ng Diffusion dahil sa kanilang kamakailang pagsulong ng tagumpay.
Sa post na ito, titingnan natin ang theoretical underpinnings ng Diffusion Models, ang kanilang disenyo, ang kanilang mga pakinabang, at marami pa. Tara na.
Ano ang modelo ng Diffusion?
Magsimula tayo sa pag-alam kung bakit ang modelong ito ay tinutukoy bilang isang modelo ng pagsasabog.
Ang isang salita na nauugnay sa thermodynamics sa mga klase ng pisika ay tinatawag na pagsasabog. Ang isang sistema ay wala sa equilibrium kung mayroong isang malaking konsentrasyon ng isang materyal, tulad ng isang pabango, sa isang lokasyon.
Dapat mangyari ang diffusion para makapasok ang system sa equilibrium. Ang mga molekula ng pabango ay kumakalat sa buong system mula sa isang rehiyon na may mas mataas na konsentrasyon, na ginagawang pare-pareho ang system sa kabuuan.
Ang lahat sa kalaunan ay nagiging homogenous dahil sa pagsasabog.
Ang mga modelo ng pagsasabog ay hinihimok ng kondisyong ito na hindi balanseng thermodynamic. Gumagamit ang mga diffusion model ng Markov chain, na isang serye ng mga variable kung saan ang halaga ng bawat variable ay umaasa sa estado ng naunang kaganapan.
Pagkuha ng larawan, sunud-sunod kaming nagdaragdag ng isang partikular na dami ng ingay dito sa buong yugto ng pasulong na pagsasabog.
Pagkatapos iimbak ang mas maingay na imahe, nagpapatuloy kami sa paglikha ng kasunod na larawan sa serye sa pamamagitan ng pagpapakilala ng karagdagang ingay.
Ilang beses, ginagawa ang pamamaraang ito. Ang isang purong larawan ng ingay ay nagreresulta mula sa pag-uulit ng pamamaraang ito ng ilang beses.
Paano tayo makakagawa ng larawan mula sa kalat na larawang ito?
Ang proseso ng pagsasabog ay binabaligtad gamit ang a neural network. Ang parehong mga network at ang parehong mga timbang ay ginagamit sa pabalik na proseso ng pagsasabog upang lumikha ng larawan mula t hanggang t-1.
Sa halip na hayaan ang network na mahulaan ang larawan, maaaring subukan ng isa na hulaan ang ingay sa bawat hakbang, na kailangang alisin sa larawan, upang higit pang gawing simple ang gawain.
Sa anumang senaryo, ang disenyo ng neural network dapat piliin sa paraang nagpapanatili ng dimensionality ng data.
Deep Dive sa Diffusion Model
Ang mga bahagi ng isang modelo ng pagsasabog ay isang proseso ng pasulong (kilala rin bilang isang proseso ng pagsasabog), kung saan ang isang datum (madalas na isang imahe) ay unti-unting nag-iingay, at isang pabalik na proseso (kilala rin bilang isang proseso ng baligtad na pagsasabog), kung saan ang ingay ay na-convert pabalik sa isang sample mula sa target na pamamahagi.
Kapag ang antas ng ingay ay sapat na mababa, ang mga conditional na Gaussian ay maaaring gamitin upang itatag ang mga sampling chain transition sa proseso ng pasulong. Ang isang madaling parameterization ng proseso ng pasulong ay nagreresulta mula sa pagsasama ng kaalamang ito sa palagay ni Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
dito isa….Ang T ay isang iskedyul ng pagkakaiba (alinman sa natutunan o naayos) na tumitiyak, para sa sapat na mataas na T, na ang xT ay halos isang isotropikong Gaussian.
Ang kabaligtaran na proseso ay kung saan nangyayari ang diffusion model magic. Natututo ang modelo na baligtarin ang proseso ng pagsasabog na ito sa panahon ng pagsasanay upang makagawa ng bagong data. Natutunan ng modelo ang magkasanib na pamamahagi bilang (x0:T) ang resulta ng pagsisimula sa purong Gaussian noise equation
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
kung saan natuklasan ang mga parameter na umaasa sa oras ng mga transition ng Gaussian. Sa partikular, tandaan kung paano isinasaad ng pormulasyon ng Markov na ang isang naibigay na reverse diffusion transition distribution ay eksklusibong nakasalalay sa naunang timestep (o kasunod na timestep, depende sa kung paano mo ito tinitingnan):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Pagsasanay ng Modelo
Ang isang reverse Markov na modelo na nag-maximize sa posibilidad ng data ng pagsasanay ay ginagamit upang sanayin ang isang diffusion model. Sa praktikal na pagsasalita, ang pagsasanay ay kahalintulad sa pagbabawas ng variational upper bound sa negatibong log probability.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modellen
Kailangan na nating magpasya kung paano isasagawa ang ating Diffusion Model pagkatapos maitaguyod ang mathematical underpinnings ng ating layunin function. Ang tanging desisyon na kailangan para sa proseso ng pagpapasa ay ang pagtukoy sa iskedyul ng pagkakaiba, na ang mga halaga ay karaniwang tumataas sa panahon ng pamamaraan.
Lubos naming isinasaalang-alang ang paggamit ng Gaussian distribution parameterization at model architecture para sa reverse procedure.
Ang tanging kondisyon ng aming disenyo ay ang parehong input at output ay may parehong mga sukat. Binibigyang-diin nito ang napakalaking antas ng kalayaan na ibinibigay ng Diffusion Models.
Sa ibaba, tatalakayin natin nang mas malalim ang tungkol sa mga opsyong ito.
Proseso ng Pagpasa
Dapat naming ibigay ang iskedyul ng pagkakaiba-iba kaugnay sa proseso ng pagpapasa. Partikular naming itinakda ang mga ito upang maging mga constant na umaasa sa oras at binalewala ang posibilidad na matutunan ang mga ito. Isang kronolohikal na iskedyul mula sa
β1 = 10−4 hanggang βT = 0.02.
Lt nagiging pare-pareho na may kinalaman sa aming hanay ng mga parameter na matututunan dahil sa nakapirming iskedyul ng pagkakaiba, na nagbibigay-daan sa amin na balewalain ito sa panahon ng pagsasanay anuman ang mga partikular na value na napili.
Baliktad na Proseso
Tatalakayin na natin ngayon ang mga desisyong kailangan para tukuyin ang baligtad na proseso. Tandaan kung paano namin inilarawan ang reverse Markov transition bilang Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Ngayon na natukoy na natin ang mga functional na uri. Sa kabila ng katotohanan na mayroong mas masalimuot na mga diskarte upang i-parameter, itinakda lang namin
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Sa ibang paraan, isinasaalang-alang namin ang multivariate na Gaussian bilang resulta ng hiwalay na mga Gaussian na may parehong pagkakaiba, isang halaga ng pagkakaiba na maaaring magbago sa paglipas ng panahon. Ang mga paglihis na ito ay nakatakda upang tumugma sa timetable ng mga paglihis sa proseso ng pagpapasa.
Bilang resulta ng bagong pormulasyon na ito, meron kami:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Nagreresulta ito sa kahaliling pagkawala ng function na ipinapakita sa ibaba, na natuklasan ng mga may-akda upang makagawa ng mas pare-parehong pagsasanay at mas mahusay na mga resulta:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Ang mga may-akda ay gumuhit din ng mga koneksyon sa pagitan ng pagbabalangkas na ito ng mga modelo ng pagsasabog at mga modelong generative na tumutugma sa puntos na nakabatay sa Langevin. Tulad ng independiyente at magkatulad na pag-unlad ng quantum physics na nakabatay sa wave at quantum mechanics na nakabatay sa matrix, na nagsiwalat ng dalawang maihahambing na formulation ng parehong phenomena, lumalabas na ang Diffusion Models at Score-Based na mga modelo ay maaaring dalawang panig ng parehong barya.
Network ng Arkitektura
Sa kabila ng katotohanan na ang aming condensed loss function ay naglalayong sanayin ang isang modelo Σθ, hindi pa rin kami nakakapagpasya sa arkitektura ng modelong ito. Tandaan na ang modelo ay kailangang magkaroon ng parehong mga sukat ng input at output.
Dahil sa paghihigpit na ito, malamang na hindi inaasahan na ang mga arkitektura na tulad ng U-Net ay madalas na ginagamit upang lumikha ng mga modelo ng pagsasabog ng larawan.
Maraming pagbabago ang ginawa sa ruta ng reverse process habang gumagamit ng tuluy-tuloy na kondisyonal na mga distribusyon ng Gaussian. Tandaan na ang layunin ng reverse procedure ay lumikha ng isang larawan na binubuo ng mga halaga ng integer pixel. Ang pagtukoy sa mga discrete (log) na posibilidad para sa bawat potensyal na halaga ng pixel sa lahat ng pixel ay kinakailangan.
Nagagawa ito sa pamamagitan ng pagtatalaga ng hiwalay na discrete decoder sa huling paglipat ng reverse diffusion chain. pagtatantya ng pagkakataon ng isang tiyak na imahe x0 naibigay na x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ kung x = 1 x + 1 255 kung x < 1 δ−(x) = −∞ kung x = −1 x − 1 255 kung x > −1
kung saan ang superscript na I ay tumutukoy sa pagkuha ng isang coordinate at ang D ay tumutukoy sa bilang ng mga dimensyon sa data.
Ang layunin sa puntong ito ay itatag ang posibilidad ng bawat integer na halaga para sa isang partikular na pixel na ibinigay sa pamamahagi ng mga potensyal na halaga para sa pixel na iyon sa pag-iiba-iba ng oras. t=1.
Pangwakas na Layunin
Ang pinakamalaking resulta, ayon sa mga siyentipiko, ay nagmula sa pagtataya ng ingay na bahagi ng isang larawan sa isang tiyak na timestep. Sa huli, ginagamit nila ang sumusunod na layunin:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Sa sumusunod na larawan, ang mga pamamaraan ng pagsasanay at pag-sample para sa aming modelo ng pagsasabog ay maigsi na inilalarawan:
Mga Benepisyo ng Diffusion Model
Tulad ng naipahiwatig na, ang dami ng pananaliksik sa mga modelo ng pagsasabog ay dumami kamakailan. Ang mga Diffusion Models ay naghahatid na ngayon ng State-of-the-Art na kalidad ng imahe at binibigyang inspirasyon ng non-equilibrium thermodynamics.
Ang mga Diffusion Models ay nagbibigay ng iba't ibang mga pakinabang bilang karagdagan sa pagkakaroon ng cutting-edge na kalidad ng larawan, tulad ng hindi nangangailangan ng adversarial na pagsasanay.
Ang mga disbentaha ng adversarial na pagsasanay ay malawak na kilala, samakatuwid ito ay madalas na mas mainam na pumili ng mga non-adversarial na alternatibo na may katumbas na pagganap at pagiging epektibo ng pagsasanay.
Ang mga modelo ng pagsasabog ay nagbibigay din ng mga pakinabang ng scalability at parallelizability sa mga tuntunin ng pagiging epektibo ng pagsasanay.
Bagama't ang Mga Modelo ng Diffusion ay lumilitaw na gumagawa ng mga kinalabasan na tila wala sa hangin, ang batayan para sa mga resultang ito ay inilatag ng ilang maalalahanin at kawili-wiling mga desisyon at subtlety sa matematika, at ang mga pinakamahuhusay na kagawian sa industriya ay ginagawa pa rin.
Konklusyon
Sa konklusyon, ipinakita ng mga mananaliksik ang mataas na kalidad na mga natuklasan sa synthesis ng larawan na gumagamit ng diffusion probabilistic na mga modelo, isang klase ng latent variable na mga modelo na udyok ng mga ideya mula sa nonequilibrium thermodynamics.
Nakamit nila ang napakalaking bagay salamat sa kanilang State-of-the-Art na mga kinalabasan at non-adversarial na pagsasanay at dahil sa kanilang kamusmusan, mas maraming pag-unlad ang maaaring asahan sa mga darating na taon.
Lalo na, natuklasan na ang mga modelo ng pagsasabog ay mahalaga sa paggana ng mga advanced na modelo tulad ng DALL-E 2.
dito maaari mong ma-access ang kumpletong pananaliksik.
Mag-iwan ng Sagot