Á undanförnum árum hafa skapandi líkön sem kallast „dreifingarlíkön“ orðið sífellt vinsælli og af góðum ástæðum.
Heimurinn hefur séð hvers dreifingarlíkön eru fær um, svo sem að standa sig betur en GAN í myndmyndun, þökk sé fáeinum tímamótaútgáfum sem gefin voru út bara á 2020 og 2021.
Sérfræðingar sáu síðast notkun á dreifingarlíkönum í DALL-E2, myndsköpunarlíkan OpenAI sem kom út í síðasta mánuði.
Margir vélanámsiðkendur eru án efa forvitnir um innri virkni Diffusion Models í ljósi nýlegrar velgengni þeirra.
Í þessari færslu munum við skoða fræðilega undirstöðu Diffusion Models, hönnun þeirra, kosti þeirra og margt fleira. Höldum af stað.
Hvað er dreifingarlíkanið?
Við skulum byrja á því að reikna út hvers vegna þetta líkan er nefnt dreifingarlíkan.
Orð sem tengist varmafræði í eðlisfræðitímum er kallað dreifing. Kerfi er ekki í jafnvægi ef það er mikill styrkur efnis, eins og lykt, á einum stað.
Dreifing verður að eiga sér stað til að kerfið komist í jafnvægi. Sameindir ilmsins dreifast um kerfið frá svæði með hærri styrk, sem gerir kerfið einsleitt í gegn.
Allt verður að lokum einsleitt vegna dreifingar.
Dreifingarlíkön eru knúin áfram af þessu varmafræðilegu ójafnvægisástandi. Dreifingarlíkön nota Markov keðju, sem er röð breyta þar sem gildi hverrar breytu byggir á stöðu fyrri atburðar.
Með því að taka mynd bætum við í röð ákveðnu magni af hávaða við hana í gegnum áframdreifingarfasann.
Eftir að hafa geymt hávaðasamari myndina, höldum við áfram að búa til síðari myndina í seríunni með því að kynna auka hávaða.
Nokkrum sinnum er þessi aðferð gerð. Hrein hávaðamynd verður til þegar þessi aðferð er endurtekin nokkrum sinnum.
Hvernig getum við þá búið til mynd úr þessari óreiðumynd?
Dreifingarferlinu er snúið við með því að nota a tauga net. Sömu net og sömu þyngd eru notuð í dreifingarferli til baka til að búa til myndina frá t til t-1.
Í stað þess að láta netið sjá fyrir myndina er hægt að reyna að spá fyrir um hávaðann í hverju skrefi sem þarf að fjarlægja úr myndinni til að einfalda verkið enn frekar.
Í hvaða atburðarás, sem taugakerfishönnun verður að velja á þann hátt að viðheldur vídd gagna.
Djúpt kafa í dreifingarlíkan
Íhlutir dreifingarlíkans eru framvirkt ferli (einnig þekkt sem dreifingarferli), þar sem viðmið (oft mynd) er smám saman hávað og afturábak ferli (einnig þekkt sem afturábak dreifingarferli), þar sem hávaði er breytt aftur í úrtak úr markdreifingu.
Þegar hávaðastigið er nógu lágt er hægt að nota skilyrta Gaussian til að koma á sýnatökukeðjubreytingum í áframhaldandi ferli. Auðveld breytugreining á áframhaldandi ferli leiðir af því að tengja þessa þekkingu við Markov forsendu:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Hér fimm….T er dreifniáætlun (annaðhvort lærð eða fast) sem tryggir, fyrir nægilega hátt T, að xT sé nánast samsæta Gauss.
Hið gagnstæða ferli er þar sem dreifingarlíkan galdur gerist. Líkanið lærir að snúa þessu dreifingarferli við meðan á þjálfun stendur til að framleiða fersk gögn. Líkanið lærir sameiginlega dreifingu sem (x0:T) niðurstaðan af því að byrja á hreinu Gauss hávaðajöfnunni
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
þar sem tímaháðar breytur Gaussbreytinganna eru uppgötvaðar. Taktu sérstaklega eftir því hvernig Markov samsetningin segir að tiltekin dreifing um öfuga dreifingu sé eingöngu háð fyrri tímaþrepinu (eða síðari tímaþrepinu, eftir því hvernig þú lítur á það):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Módelþjálfun
Andstæða Markov líkan sem hámarkar líkur á þjálfunargögnum er notað til að þjálfa dreifingarlíkan. Nákvæmlega séð er þjálfun hliðstæð því að draga úr efri breytimörkum á neikvæðu loglíkunum.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Models
Við þurfum nú að ákveða hvernig á að framkvæma Dreifingarlíkanið okkar eftir að hafa komið á stærðfræðilegum undirstöðum markmiðsvirkni okkar. Eina ákvörðunin sem þarf fyrir áframhaldandi ferlið er að ákvarða fráviksáætlunina, en gildi hennar hækka venjulega meðan á málsmeðferð stendur.
Við íhugum eindregið að nota Gauss-dreifingu færibreytu og líkanarkitektúr fyrir öfuga aðferð.
Eina skilyrði hönnunar okkar er að bæði inntak og úttak hafi sömu stærðir. Þetta undirstrikar hið gríðarlega frelsi sem Diffusion Models veita.
Hér að neðan munum við fara í meiri dýpt um þessa valkosti.
Áfram ferli
Við verðum að gefa upp fráviksáætlun í tengslum við áframhaldandi ferli. Við settum þá sérstaklega til að vera tímaháðir fastar og virtum að vettugi möguleikann á að hægt væri að læra þá. Dagskrá í tímaröð frá
β1 = 10−4 til βT = 0.02.
Lt verður stöðugur með tilliti til mengi okkar af læranlegum breytum vegna fastrar dreifniáætlunar, sem gerir okkur kleift að hunsa það meðan á þjálfun stendur, óháð sérstökum gildum sem valin eru.
Öfugt ferli
Við förum nú yfir þær ákvarðanir sem þarf til að skilgreina hið gagnstæða ferli. Mundu hvernig við lýstum öfugum Markov umbreytingum sem Gauss:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Nú þegar við höfum borið kennsl á hagnýtur tegundir. Þrátt fyrir þá staðreynd að það eru flóknari aðferðir til að stilla breytur, stillum við bara
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Til að orða það á annan hátt teljum við margbreytileika Gauss vera afleiðing af aðskildum Gauss með sama dreifni, dreifnigildi sem getur sveiflast með tímanum. Þessi frávik eru stillt til að passa við tímaáætlun framsendingarferlisfrávika.
Sem afleiðing af þessari nýju samsetningu, við höfum:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Þetta leiðir til vara tapsaðgerðarinnar sem sýnd er hér að neðan, sem höfundarnir fundu að skilaði stöðugri þjálfun og betri árangri:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Höfundarnir draga einnig tengsl á milli þessarar mótunar dreifingarlíkana og Langevin-undirstaða stigasamsvörunarmynda. Eins og með óháða og samhliða þróun bylgjubundinnar skammtaeðlisfræði og fylkisbundinnar skammtafræði, sem leiddi í ljós tvær sambærilegar samsetningar af sömu fyrirbærum, virðist sem dreifingarlíkön og stigatengd líkön geta verið tvær hliðar á sama peningnum.
Netarkitektúr
Þrátt fyrir þá staðreynd að samþjöppuð tapsaðgerð okkar miðar að því að þjálfa líkan Σθ, við höfum enn ekki ákveðið arkitektúr þessa líkans. Hafðu í huga að líkanið verður einfaldlega að hafa sömu inntaks- og úttaksvíddir.
Í ljósi þessarar þvingunar er líklega ekki óvænt að U-Net-líkur arkitektúr sé oft notaður til að búa til mynddreifingarlíkön.
Fjölmargar breytingar eru gerðar á leið öfuga ferlisins á meðan verið er að nota samfellda skilyrta Gaussdreifingu. Mundu að markmiðið með öfugri aðferð er að búa til mynd sem samanstendur af heiltölu pixlagildum. Því er nauðsynlegt að ákvarða stakar (log) líkur fyrir hvert hugsanlegt pixlagildi yfir alla pixla.
Þetta er gert með því að tengja sérstakan stakan afkóðara við síðustu umskipti öfugdreifingarkeðjunnar. að meta líkurnar á ákveðinni mynd x0 gefið x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ef x = 1 x + 1 255 ef x < 1 δ−(x) = −∞ ef x = −1 x − 1 255 ef x > −1
þar sem yfirskrift I táknar útdrátt eins hnits og D táknar fjölda vídda í gögnunum.
Markmiðið á þessum tímapunkti er að ákvarða líkur á hverju heiltölugildi fyrir tiltekinn pixla miðað við dreifingu hugsanlegra gilda fyrir þann pixla á breytilegum tíma t=1.
Lokamarkmið
Mestu niðurstöðurnar, samkvæmt vísindamönnum, komu frá því að spá fyrir um hávaðaþátt myndar á ákveðnu tímastigi. Að lokum nota þeir eftirfarandi markmið:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Á eftirfarandi mynd eru þjálfunar- og sýnatökuaðferðir fyrir dreifingarlíkanið okkar stuttlega sýndar:
Kostir dreifingarlíkans
Eins og áður hefur komið fram hefur magn rannsókna á dreifingarlíkönum margfaldast að undanförnu. Dreifingarlíkön skila nú nýjustu myndgæðum og eru innblásin af varmafræði sem ekki er í jafnvægi.
Dreifingarlíkön bjóða upp á ýmsa aðra kosti auk þess að hafa háþróaða myndgæði, svo sem að þurfa ekki andstæðing þjálfun.
Gallarnir við andstæð þjálfun eru víða þekktir, þess vegna er oft ákjósanlegt að velja ómótstæðilega valkosti með samsvarandi frammistöðu og þjálfunarárangri.
Dreifingarlíkön veita einnig kosti sveigjanleika og samhliða með tilliti til skilvirkni þjálfunar.
Þrátt fyrir að dreifingarlíkön virðast skapa niðurstöður sem virðast úr lausu lofti gripnar, er grundvöllur þessara niðurstaðna lagður með fjölda yfirvegaðra og áhugaverðra stærðfræðilegra ákvarðana og fíngerða, og enn er verið að þróa bestu starfsvenjur iðnaðarins.
Niðurstaða
Að lokum sýna vísindamenn fram á hágæða myndmyndunarniðurstöður með því að nota dreifingarlíkön, flokk duldra breytilegra líkana sem eru knúin áfram af hugmyndum frá ójafnvægisvarmafræði.
Þeir hafa náð gríðarlegum árangri þökk sé nýjustu árangri þeirra og ómótstæðilegri þjálfun og miðað við frumburð þeirra má búast við meiri framförum á komandi árum.
Sérstaklega hefur verið uppgötvað að dreifingarlíkön skipta sköpum fyrir virkni háþróaðra gerða eins og DALL-E 2.
Hér þú getur nálgast heildarrannsóknina.
Skildu eftir skilaboð