Posljednjih godina, generativni modeli koji se nazivaju “modeli difuzije” postaju sve popularniji, i to s dobrim razlogom.
Svijet je vidio za šta su difuzioni modeli sposobni, kao što je nadmašivanje GAN-ova u sintezi slike, zahvaljujući nekoliko odabranih značajnih publikacija objavljenih samo 2020-ih i 2021. godine.
Praktičari su nedavno vidjeli upotrebu difuzijskih modela DALL-E2, OpenAI-jev model kreiranja slika koji je objavljen prošlog mjeseca.
Mnogi praktičari mašinskog učenja su nesumnjivo znatiželjni o unutrašnjem radu difuzijskih modela s obzirom na njihov nedavni nalet uspjeha.
U ovom postu ćemo pogledati teorijske osnove difuzijskih modela, njihov dizajn, njihove prednosti i još mnogo toga. Idemo.
Šta je model difuzije?
Počnimo tako što ćemo otkriti zašto se ovaj model naziva difuzijskim modelom.
Riječ koja se odnosi na termodinamiku na časovima fizike naziva se difuzija. Sistem nije u ravnoteži ako postoji velika koncentracija materijala, poput mirisa, na jednoj lokaciji.
Difuzija se mora dogoditi da bi sistem ušao u ravnotežu. Molekuli mirisa difundiraju kroz sistem iz područja veće koncentracije, čineći sistem ujednačenim.
Sve na kraju postaje homogeno zbog difuzije.
Difuzijski modeli su motivirani ovim termodinamičkim neravnotežnim uvjetom. Difuzijski modeli koriste Markovljev lanac, koji je niz varijabli gdje se vrijednost svake varijable oslanja na stanje prethodnog događaja.
Snimajući sliku, sukcesivno joj dodajemo određenu količinu šuma tokom faze difuzije prema naprijed.
Nakon pohranjivanja bučnije slike, nastavljamo sa kreiranjem sljedeće slike u seriji uvođenjem dodatnog šuma.
Ovaj postupak se radi nekoliko puta. Čista slika šuma je rezultat ponavljanja ove metode nekoliko puta.
Kako onda možemo stvoriti sliku od ove pretrpane slike?
Proces difuzije je obrnut korištenjem a neuronska mreža. Iste mreže i iste težine se koriste u procesu povratne difuzije za kreiranje slike od t do t-1.
Umjesto puštanja mreže da predvidi sliku, može se pokušati predvidjeti šum u svakom koraku, koji se mora ukloniti sa slike, kako bi se dodatno pojednostavio zadatak.
U svakom scenariju, dizajn neuronske mreže moraju biti odabrani na način koji održava dimenzionalnost podataka.
Duboko zaronite u model difuzije
Komponente modela difuzije su proces naprijed (također poznat kao proces difuzije), u kojem se datum (često slika) postepeno šumi, i reverzni proces (također poznat kao proces reverzne difuzije), u kojem se stvara šum. ponovo konvertovan u uzorak iz ciljne distribucije.
Kada je nivo buke dovoljno nizak, uslovni Gaussovi se mogu koristiti za uspostavljanje prijelaza lanca uzorkovanja u procesu naprijed. Jednostavna parametrizacija procesa naprijed je rezultat spajanja ovog znanja s Markovom pretpostavkom:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
ovdje jedan….T je raspored varijanse (bilo naučen ili fiksni) koji osigurava, za dovoljno visok T, da je xT praktično izotropni Gausov.
Suprotan proces je gdje se dešava magija modela difuzije. Model uči da preokrene ovaj proces difuzije tokom treninga kako bi proizveo sveže podatke. Model uči zajedničku distribuciju kao (x0:T) rezultat počinjanja s čistom Gaussovom jednadžbom šuma
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
gdje su otkriveni vremenski zavisni parametri Gaussovih prijelaza. Konkretno, obratite pažnju na to kako Markovljeva formulacija navodi da data distribucija prijelaza obrnute difuzije ovisi isključivo o prethodnom vremenskom koraku (ili sljedećem vremenskom koraku, ovisno o tome kako ga gledate):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Model Training
Obrnuti Markov model koji maksimizira vjerovatnoću podataka o obuci koristi se za treniranje difuzijskog modela. Praktično govoreći, obuka je analogna smanjenju varijacione gornje granice negativne log vjerovatnoće.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modeli
Sada moramo odlučiti kako ćemo izvršiti naš model difuzije nakon uspostavljanja matematičke osnove naše ciljne funkcije. Jedina odluka potrebna za proces naprijed je određivanje rasporeda varijanse, čije vrijednosti obično rastu tokom postupka.
Snažno razmatramo korištenje parametrizacije Gaussove distribucije i arhitekture modela za obrnuti postupak.
Jedini uslov našeg dizajna je da i ulaz i izlaz imaju iste dimenzije. Ovo naglašava ogroman stepen slobode koji Difuzijski modeli pružaju.
U nastavku ćemo detaljnije govoriti o ovim opcijama.
Forward Process
Moramo obezbijediti raspored odstupanja u odnosu na proces naprijed. Posebno smo ih postavili kao vremenski zavisne konstante i zanemarili mogućnost da se mogu naučiti. Hronološki raspored od
β1 = 10−4 do βT = 0.02.
Lt postaje konstanta u odnosu na naš skup parametara koji se mogu naučiti zbog fiksnog rasporeda varijanse, što nam omogućava da ga zanemarimo tokom treninga bez obzira na određene odabrane vrijednosti.
Obrnuti proces
Sada prelazimo na odluke potrebne za definiranje obrnutog procesa. Sjetite se kako smo obrnute Markovljeve tranzicije opisali kao Gausove:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Sada kada smo identifikovali funkcionalne tipove. Unatoč činjenici da postoje složenije tehnike za parametriranje, mi smo samo postavili
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Drugim riječima, smatramo da je multivarijantni Gaussov rezultat odvojenih Gaussovih vrijednosti sa istom varijansom, vrijednosti varijanse koja može fluktuirati tokom vremena. Ova odstupanja su podešena tako da odgovaraju rasporedu odstupanja procesa prosljeđivanja.
Kao rezultat ove nove formulacije, imamo:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Ovo rezultira dolje prikazanom alternativnom funkcijom gubitka, za koju su autori otkrili da proizvodi dosljedniju obuku i superiorne rezultate:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Autori također povlače veze između ove formulacije difuzijskih modela i Langevin-ovih generativnih modela uparivanja rezultata. Kao i kod nezavisnog i paralelnog razvoja kvantne fizike zasnovane na talasima i kvantne mehanike zasnovane na matrici, koji je otkrio dve uporedive formulacije istih fenomena, čini se da modeli difuzije i modeli zasnovani na rezultatu mogu biti dve strane istog novčića.
Mrežna arhitektura
Uprkos činjenici da naša funkcija kondenzovanog gubitka ima za cilj da trenira model Σθ, još uvijek se nismo odlučili za arhitekturu ovog modela. Imajte na umu da model jednostavno mora imati iste ulazne i izlazne dimenzije.
S obzirom na ovo ograničenje, vjerovatno nije neočekivano da se arhitekture poput U-Neta često koriste za kreiranje modela difuzije slike.
Brojne promjene se vrše duž putanje obrnutog procesa uz korištenje kontinuiranih uvjetnih Gaussovih distribucija. Zapamtite da je cilj obrnute procedure stvoriti sliku sačinjenu od cjelobrojnih vrijednosti piksela. Stoga je neophodno određivanje diskretnih (log) vjerovatnoća za svaku potencijalnu vrijednost piksela za sve piksele.
Ovo se postiže dodeljivanjem posebnog diskretnog dekodera poslednjem prelazu lanca reverzne difuzije. procjenu šanse za određenu sliku x0 dato x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ako je x = 1 x + 1 255 ako je x < 1 δ−(x) = −∞ ako je x = −1 x − 1 255 ako je x > −1
gdje gornji indeks I označava izdvajanje jedne koordinate, a D označava broj dimenzija u podacima.
Cilj u ovom trenutku je utvrditi vjerovatnoću svake cjelobrojne vrijednosti za određeni piksel s obzirom na distribuciju potencijalnih vrijednosti za taj piksel u vremenski promjenljivoj t=1.
Konačni cilj
Najveći rezultati, prema naučnicima, došli su od predviđanja komponente šuma na slici u određenom vremenskom koraku. Na kraju imaju sljedeći cilj:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Na sljedećoj slici su sažeto prikazani postupci obuke i uzorkovanja za naš model difuzije:
Prednosti difuzijskog modela
Kao što je već naznačeno, količina istraživanja difuzijskih modela se u posljednje vrijeme višestruko povećala. Difuzijski modeli sada daju vrhunski kvalitet slike i inspirisani su neravnotežnom termodinamikom.
Difuzioni modeli pružaju niz drugih prednosti pored vrhunskog kvaliteta slike, kao što je ne zahtijevaju suprotstavljenu obuku.
Nedostaci kontradiktorne obuke su opšte poznati, stoga je često poželjno izabrati nekonkurentne alternative sa ekvivalentnim performansama i efektivnošću obuke.
Difuzijski modeli takođe pružaju prednosti skalabilnosti i paralelnosti u smislu efektivnosti obuke.
Iako se čini da modeli difuzije stvaraju rezultate naizgled iz ničega, osnova za ove rezultate je postavljena brojnim promišljenim i zanimljivim matematičkim odlukama i suptilnostima, a najbolje prakse u industriji se još uvijek razvijaju.
zaključak
U zaključku, istraživači demonstriraju nalaze visokokvalitetne sinteze slike koristeći difuzijske probabilističke modele, klasu latentnih varijabilnih modela motiviranih idejama iz neravnotežne termodinamike.
Postigli su ogromne stvari zahvaljujući svojim vrhunskim rezultatima i nekonkurentnoj obuci, a s obzirom na njihovo djetinjstvo, može se očekivati još napretka u godinama koje dolaze.
Konkretno, otkriveno je da su difuzijski modeli ključni za funkcionalnost naprednih modela poput DALL-E 2.
ovdje možete pristupiti kompletnom istraživanju.
Ostavite odgovor