Edukien aurkibidea[Ezkutatu][Erakutsi]
Azken urteotan, "difusio-ereduak" izeneko eredu sortzaileak gero eta ezagunagoak dira, eta arrazoi onarekin.
Munduak ikusi du zertarako gai diren difusio-ereduak, esate baterako, GANak gainditzea irudien sintesian, 2020ko eta 2021eko hamarkadetan argitaratutako argitalpen garrantzitsu batzuei esker.
Profesionalek azkenaldian ikusi zuten difusio-ereduen erabilera DALL-E2, joan den hilabetean argitaratu zen OpenAIren irudiak sortzeko eredua.
Makina Ikaskuntzako praktikatzaile askok, dudarik gabe, Difusio Ereduen barne funtzionamenduari buruz jakin-mina dute azken arrakastaren gorakada ikusita.
Post honetan, Difusio Ereduen oinarri teorikoak, haien diseinua, abantailak eta askoz gehiago ikusiko ditugu. Goazen.
Zer da Difusio eredua?
Has gaitezen asmatzen zergatik esaten zaion eredu honi difusio-eredu gisa.
Fisikako klaseetan termodinamikarekin lotutako hitz bati difusioa deitzen zaio. Sistema bat ez dago orekan, leku batean material baten kontzentrazio handia badago, usain bat bezala.
Difusioa gertatu behar da sistema orekan sartzeko. Usainaren molekulak sistema osoan zehar hedatzen dira kontzentrazio handiagoko eskualde batetik, sistema osoan uniformea eginez.
Azkenean dena homogeneo bihurtzen da difusioaren ondorioz.
Difusio-ereduak oreka ez-baldintza termodinamiko honek bultzatuta daude. Hedapen-ereduek Markov kate bat erabiltzen dute, hau da, aldagai bakoitzaren balioa aurreko gertaeraren egoeran oinarritzen den aldagai sorta bat da.
Argazki bat hartuz gero, zarata kopuru jakin bat gehitzen diogu aurreranzko difusio fasean zehar.
Irudi zaratatsuena gorde ondoren, serieko hurrengo irudia sortzen hasiko gara zarata gehigarria sartuz.
Hainbat aldiz, prozedura hau egiten da. Metodo hau zenbait aldiz errepikatzean zarata-irudi hutsa sortzen da.
Nola sortu dezakegu, beraz, irudi nahasi horretatik irudi bat?
Difusio-prozesua a erabiliz alderantzikatzen da sare neural. Atzerako difusio prozesuan sare eta pisu berdinak erabiltzen dira t-tik t-1-era irudia sortzeko.
Sareari irudia aurreikusten utzi beharrean, urrats bakoitzean zarata iragartzen saia daiteke, eta hori iruditik kendu behar da, zeregina gehiago errazteko.
Edozein eszenatokitan, sare neuronalaren diseinua datuen dimentsioa mantenduz hautatu behar da.
Difusio ereduan sakondu
Difusio-eredu baten osagaiak aurrerako prozesu bat (difusio-prozesu gisa ere ezagutzen dena), non datu bat (askotan irudi bat) pixkanaka-pixkanaka zarata ateratzen den, eta alderantzizko prozesu bat (alderantzizko difusio-prozesu gisa ere ezagutzen dena), zarata dena. helburu-banaketatik lagin bihurtu da berriro.
Zarata maila nahikoa baxua denean, gauss baldintzatuak erabil daitezke aurrerako prozesuan laginketa-katearen trantsizioak ezartzeko. Aurrerako prozesuaren parametrizazio erraza lortzen da ezagutza hori Markoven hipotesiarekin lotzean:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Here bat….T bariantza-programa bat da (ikasita edo finkoa) eta bermatzen duena, T aski alturako, xT ia gaussiar isotropo bat dela.
Kontrako prozesua difusio ereduaren magia gertatzen da. Ereduak hedapen prozesu horri buelta ematen ikasten du prestakuntzan zehar, datu freskoak ekoizteko. Ereduak banaketa bateratua bezala ikasten du (x0:T) zarata gaussaren ekuazio hutsetik abiatzearen emaitza
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
non gaussiar trantsizioen denboraren menpeko parametroak aurkitzen diren. Bereziki, kontuan izan nola Markov-en formulazioak dioen alderantzizko difusio-trantsizio-banaketa bat aurreko denbora-pausoaren (edo ondorengo denbora-pausoaren araberakoa soilik dela, nola ikusten duzunaren arabera):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Ereduen Prestakuntza
Difusio-eredu bat entrenatzeko entrenamendu-datuen probabilitatea maximizatzen duen alderantzizko Markov eredua erabiltzen da. Praktikoki hitz eginez, entrenamendua log probabilitate negatiboaren goiko muga aldakorra murriztearen antzekoa da.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Ereduak
Orain gure Difusio Eredua nola exekutatu erabaki behar dugu gure helburu-funtzioaren oinarri matematikoak ezarri ondoren. Aurrerako prozesuan behar den erabaki bakarra bariantza-egutegia zehaztea da, zeinen balioak normalean prozeduran zehar igotzen baitira.
Alderantzizko prozedurarako Gauss-en banaketaren parametrizazioa eta eredu-arkitektura erabiltzea oso kontuan hartzen dugu.
Gure diseinuaren baldintza bakarra sarrerak eta irteerak dimentsio berdinak izatea da. Horrek azpimarratzen du Difusio Ereduek ematen duten askatasun maila izugarria.
Jarraian, aukera hauei buruz sakonduko dugu.
Aurrera Prozesua
Aurrerapen prozesuari dagokionez bariantza-egutegia eman behar dugu. Zehazki ezarri ditugu denboraren menpeko konstanteak izan daitezen eta ikas daitezkeen aukera baztertu dugu. Ordutegi kronologiko bat
β1 = 10−4tik βT = 0.02ra.
Lt konstante bihurtzen da gure ikas daitezkeen parametroen multzoari dagokionez, bariantza-programa finkoaren ondorioz, entrenamenduan zehar ez ikusi ahal izateko aukera ematen digu, aukeratutako balio zehatzak kontuan hartu gabe.
Alderantzizko Prozesua
Alderantzizko prozesua definitzeko beharrezkoak diren erabakiak aztertuko ditugu orain. Gogoratu nola deskribatu genituen alderantzizko Markov-en trantsizioak gaussiar gisa:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Orain mota funtzionalak identifikatu ditugu. Parametrizatzeko teknika korapilatsuagoak dauden arren, ezarri besterik ez dugu egin
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Beste modu batean esateko, aldagai anitzeko gaussiarra bariantza berdina duten gausiarren emaitzatzat hartzen dugu, denboran zehar alda daitekeen bariantza-balioa. Desbideratze hauek bidalketa-prozesuaren desbideratzeen egutegiarekin bat egiteko ezartzen dira.
Formulazio berri honen ondorioz, daukagu:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Honen ondorioz, behean agertzen den galera-funtzio alternatiboa sortzen da, egileek prestakuntza koherenteagoa eta emaitza hobeak ekoizten zituela ikusi zuten:
Lsinple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Egileek difusio-ereduen formulazio honen eta Langevin-en oinarritutako puntuazioaren parekatze-eredu sortzaileen arteko loturak ere marrazten dituzte. Uhinetan oinarritutako fisika kuantikoaren eta matrizean oinarritutako mekanika kuantikoaren garapen independente eta paraleloarekin gertatzen den bezala, fenomeno berdinen bi formulazio konparagarri agerian utzi zituena, badirudi Difusio-ereduak eta Puntuazio-oinarritutako ereduak txanpon beraren bi aldeak izan daitezkeela.
Sareko Arkitektura
Gure galera kondentsatuaren funtzioak eredu bat prestatzea helburu duen arren Σθ, oraindik ez dugu eredu honen arkitektura erabaki. Kontuan izan ereduak sarrera eta irteerako dimentsio berdinak izan behar dituela.
Muga hori kontuan hartuta, ziurrenik ez da ustekabekoa U-Net-eko arkitekturak maiz erabiltzen direla irudien difusio-ereduak sortzeko.
Aldaketa ugari egiten dira alderantzizko prozesuaren ibilbidean gauss-en banaketa etengabeak erabiliz. Gogoratu alderantzizko prozeduraren helburua pixel osoen balioez osatutako irudi bat sortzea dela. Beraz, beharrezkoa da pixel guztien balio potentzial bakoitzaren probabilitate diskretuak (log) zehaztea.
Alderantzizko difusio-katearen azken trantsizioari deskodetzaile diskretu bereizi bat esleituz lortzen da. irudi jakin baten aukera kalkulatzea x0 eman x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ x = 1 x + 1 255 bada x < 1 δ−(x) = −∞ bada x = −1 x − 1 255 bada x > −1
non I goi-indizeak koordenatu baten erauzketa adierazten du eta D datuen dimentsio kopurua.
Puntu honetan helburua pixel zehatz baterako balio oso bakoitzaren probabilitatea ezartzea da, pixel horren balio potentzialen banaketa denbora-aldaketan. t=1.
Azken Helburua
Emaitzarik handienak, zientzialarien arabera, irudi baten zarata-osagaia une jakin batean iragartzeak izan ziren. Azkenean, honako helburu hau egiten dute:
Lsinple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Hurrengo irudian, gure difusio-ereduaren entrenamendu- eta laginketa-prozedurak labur azaltzen dira:
Hedapen ereduaren onurak
Esan bezala, difusio-ereduei buruzko ikerketa kopurua biderkatu egin da azkenaldian. Difusio-ereduek orain arte puntako irudiaren kalitatea eskaintzen dute eta oreka gabeko termodinamikan inspiratuta daude.
Difusio-ereduek beste abantaila ugari eskaintzen dituzte argazki-kalitatea abangoardiakoa izateaz gain, esate baterako, kontrako prestakuntzarik ez behar izatea.
Kontrako entrenamenduaren eragozpenak oso ezagunak dira, horregatik, askotan, hobe da aurkaririk gabeko alternatibak aukeratzea errendimendu eta entrenamendu eraginkortasun baliokidea dutenak.
Hedapen-ereduek eskalagarritasunaren eta paralelismoaren abantailak ere eskaintzen dituzte entrenamenduaren eraginkortasunari dagokionez.
Difusio-ereduek itxuraz ondorioak sortzen dituztela dirudien arren, emaitza hauen oinarria matematika-erabaki eta ñabardura gogoetatsu eta interesgarri batzuek ezartzen dute, eta industriako praktika onak garatzen ari dira oraindik.
Ondorioa
Ondorioz, ikertzaileek kalitate handiko irudien sintesiaren aurkikuntzak frogatzen dituzte difusio probabilitate-ereduak erabiliz, orekarik gabeko termodinamikako ideiek bultzatutako ezkutuko aldagai-ereduen klasea.
Ikaragarrizko gauzak lortu dituzte beren Arte-egoerazko emaitzei eta aurkaririk gabeko prestakuntzari esker eta beren haurtzaroa ikusita, aurrerapen gehiago aurreikus daitezke datozen urteetan.
Bereziki, aurkitu da difusio-ereduak funtsezkoak direla DALL-E 2 bezalako modelo aurreratuen funtzionalitaterako.
Here ikerketa osoa sar dezakezu.
Utzi erantzun bat