V zadnjih letih postajajo vse bolj priljubljeni generativni modeli, imenovani "difuzijski modeli", in to z dobrim razlogom.
Svet je videl, česa so zmožni difuzijski modeli, na primer boljši od GAN pri sintezi slike, zahvaljujoč nekaj izbranim mejniškim publikacijam, objavljenim ravno v letih 2020 in 2021.
Strokovnjaki so nedavno videli uporabo difuzijskih modelov v DALL-E2, model ustvarjanja slik OpenAI, ki je bil objavljen prejšnji mesec.
Mnogi izvajalci strojnega učenja so nedvomno radovedni o notranjem delovanju difuzijskih modelov glede na njihov nedavni porast uspeha.
V tem prispevku si bomo ogledali teoretično osnovo difuzijskih modelov, njihovo zasnovo, njihove prednosti in še veliko več. Pojdimo.
Kaj je difuzijski model?
Začnimo z ugotovitvijo, zakaj se ta model imenuje difuzijski model.
Beseda, povezana s termodinamiko pri pouku fizike, se imenuje difuzija. Sistem ni v ravnotežju, če je na enem mestu velika koncentracija materiala, kot je vonj.
Za vzpostavitev ravnovesja sistema mora priti do difuzije. Molekule dišave se razpršijo po celotnem sistemu iz območja z višjo koncentracijo, zaradi česar je sistem po vsem enoten.
Zaradi difuzije sčasoma vse postane homogeno.
Difuzijski modeli so motivirani s tem termodinamičnim neravnovesnim stanjem. Difuzijski modeli uporabljajo Markovljevo verigo, ki je niz spremenljivk, kjer je vrednost vsake spremenljivke odvisna od stanja predhodnega dogodka.
Ko posnamemo sliko, ji zaporedno dodajamo določeno količino šuma skozi fazo difuzije naprej.
Ko shranimo sliko z večjim šumom, nadaljujemo z ustvarjanjem naslednje slike v nizu z vnosom dodatnega šuma.
Ta postopek se izvede večkrat. Če nekajkrat ponovite to metodo, dobite sliko čistega šuma.
Kako lahko potem ustvarimo sliko iz te neurejene slike?
Postopek difuzije se obrne z uporabo a nevronska mreža. Ista omrežja in enake uteži se uporabljajo v procesu povratne difuzije za ustvarjanje slike od t do t-1.
Namesto da bi omrežju omogočili predvidevanje slike, lahko poskusite predvideti šum na vsakem koraku, ki ga je treba odstraniti iz slike, da bi dodatno poenostavili nalogo.
V katerem koli scenariju, oblikovanje nevronske mreže mora biti izbran na način, ki ohranja dimenzionalnost podatkov.
Poglobite se v model difuzije
Komponente difuzijskega modela so napredni proces (znan tudi kot difuzijski proces), v katerem podatek (pogosto slika) postopoma povzroča šum, in povratni proces (znan tudi kot povratni difuzijski proces), v katerem je šum pretvorjen nazaj v vzorec iz ciljne porazdelitve.
Ko je raven hrupa dovolj nizka, je mogoče uporabiti pogojne Gaussove vrednosti za določitev prehodov verige vzorčenja v procesu naprej. Enostavna parametrizacija naprednega procesa izhaja iz povezovanja tega znanja z Markovo predpostavko:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Tukaj 1 ....T je razpored variance (bodisi naučen ali fiksen), ki zagotavlja, da je xT za dovolj visok T praktično izotropni Gaussov.
V nasprotnem procesu se zgodi magija difuzijskega modela. Model se med usposabljanjem nauči obrniti ta proces difuzije, da ustvari sveže podatke. Model se nauči skupne porazdelitve kot (x0:T) rezultat začetka s čisto Gaussovo enačbo šuma
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
kjer so odkriti časovno odvisni parametri Gaussovih prehodov. Še posebej bodite pozorni na to, kako Markovljeva formulacija navaja, da je dana porazdelitev prehoda povratne difuzije odvisna izključno od predhodnega časovnega koraka (ali naslednjega časovnega koraka, odvisno od tega, kako na to gledate):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Usposabljanje za modele
Obratni Markovljev model, ki poveča verjetnost podatkov o usposabljanju, se uporablja za usposabljanje difuzijskega modela. Praktično gledano je usposabljanje podobno zmanjšanju variacijske zgornje meje negativne log verjetnosti.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modeli
Zdaj se moramo odločiti, kako izvesti naš difuzijski model, potem ko smo določili matematične podlage naše ciljne funkcije. Edina odločitev, ki je potrebna za postopek naprej, je določitev urnika odstopanja, katerega vrednosti običajno naraščajo med postopkom.
Zelo razmišljamo o uporabi parametrizacije Gaussove porazdelitve in arhitekture modela za obratni postopek.
Edini pogoj našega dizajna je, da imata vhod in izhod enake dimenzije. To poudarja ogromno stopnjo svobode, ki jo zagotavljajo difuzijski modeli.
Spodaj bomo te možnosti podrobneje obravnavali.
Naprej proces
Zagotoviti moramo razpored odstopanj v zvezi s postopkom naprej. Posebej smo jih nastavili kot časovno odvisne konstante in zanemarili možnost, da se jih je mogoče naučiti. Kronološki razpored od
β1 = 10−4 do βT = 0.02.
Lt postane stalnica glede na naš nabor učljivih parametrov zaradi fiksnega urnika variance, kar nam omogoča, da ga med usposabljanjem zanemarimo ne glede na izbrane specifične vrednosti.
Obratni postopek
Zdaj bomo preučili odločitve, potrebne za opredelitev obratnega procesa. Spomnite se, kako smo obratne Markovljeve prehode opisali kot Gaussove:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Zdaj, ko smo identificirali funkcionalne vrste. Kljub dejstvu, da obstajajo bolj zapletene tehnike za parametriranje, smo samo nastavili
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Povedano drugače, menimo, da je multivariatni Gaussian rezultat ločenih Gaussianov z isto varianco, vrednostjo variance, ki lahko niha skozi čas. Ta odstopanja so nastavljena tako, da se ujemajo s časovnim razporedom odstopanj v procesu posredovanja.
Kot rezultat te nove formulacije, imamo:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Posledica tega je alternativna izgubna funkcija, prikazana spodaj, za katero so avtorji ugotovili, da zagotavlja doslednejše usposabljanje in boljše rezultate:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Avtorji prav tako vzpostavljajo povezave med to formulacijo difuzijskih modelov in generativnimi modeli za ujemanje rezultatov, ki temeljijo na Langevinu. Tako kot pri neodvisnem in vzporednem razvoju kvantne fizike, ki temelji na valovih, in kvantne mehanike, ki temelji na matriki, ki je razkril dve primerljivi formulaciji istih pojavov, se zdi, da sta lahko difuzijski modeli in modeli, ki temeljijo na rezultatih, dve plati istega kovanca.
Arhitektura omrežja
Kljub dejstvu, da je cilj naše funkcije zgoščene izgube usposobiti model Σθ, še vedno se nismo odločili za arhitekturo tega modela. Ne pozabite, da mora imeti model preprosto enake vhodne in izhodne dimenzije.
Glede na to omejitev verjetno ni nepričakovano, da se arhitekture, podobne U-Netu, pogosto uporabljajo za ustvarjanje modelov difuzije slike.
Med uporabo zveznih pogojnih Gaussovih porazdelitev so narejene številne spremembe na poti obratnega procesa. Ne pozabite, da je cilj obratnega postopka ustvariti sliko, sestavljeno iz celih vrednosti slikovnih pik. Zato je potrebno določiti diskretne (log) verjetnosti za vsako potencialno vrednost slikovne pike za vse slikovne pike.
To se doseže z dodelitvijo ločenega diskretnega dekoderja zadnjemu prehodu verige povratne difuzije. ocenjevanje možnosti določene slike x0 dana x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ če je x = 1 x + 1 255 če je x < 1 δ−(x) = −∞ če je x = −1 x − 1 255 če je x > −1
kjer zgornji indeks I označuje ekstrakcijo ene koordinate in D označuje število dimenzij v podatkih.
Cilj na tej točki je ugotoviti verjetnost vsake cele vrednosti za določeno slikovno piko glede na porazdelitev potencialnih vrednosti za to slikovno piko v časovno spremenljivem t=1.
Končni cilj
Po mnenju znanstvenikov so največji rezultati prišli z napovedovanjem komponente hrupa slike v določenem časovnem koraku. Na koncu si zastavijo naslednji cilj:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Na naslednji sliki so na kratko prikazani postopki usposabljanja in vzorčenja za naš difuzijski model:
Prednosti difuzijskega modela
Kot je bilo že omenjeno, se je število raziskav difuzijskih modelov v zadnjem času pomnožilo. Difuzijski modeli zdaj zagotavljajo najsodobnejšo kakovost slike in se zgledujejo po neravnovesni termodinamiki.
Difuzijski modeli poleg vrhunske kakovosti slike nudijo še vrsto drugih prednosti, na primer ne zahtevajo kontradiktornega usposabljanja.
Pomanjkljivosti adversarnega usposabljanja so splošno znane, zato je pogosto bolje izbrati neadversarne alternative z enakovredno zmogljivostjo in učinkovitostjo usposabljanja.
Difuzijski modeli zagotavljajo tudi prednosti razširljivosti in vzporednosti v smislu učinkovitosti usposabljanja.
Čeprav se zdi, da difuzijski modeli ustvarjajo rezultate navidezno iz nič, je podlaga za te rezultate postavljena s številnimi premišljenimi in zanimivimi matematičnimi odločitvami in tankostmi, najboljše prakse v panogi pa se še vedno razvijajo.
zaključek
Za zaključek raziskovalci prikazujejo visokokakovostne ugotovitve sinteze slike z uporabo difuzijskih verjetnostnih modelov, razreda modelov latentnih spremenljivk, ki jih motivirajo zamisli iz neravnovesne termodinamike.
Dosegli so ogromno stvari zahvaljujoč svojim najsodobnejšim rezultatom in netekmovalnemu usposabljanju in glede na njihovo otroštvo je mogoče pričakovati več napredka v prihodnjih letih.
Zlasti je bilo ugotovljeno, da so difuzijski modeli ključni za funkcionalnost naprednih modelov, kot je DALL-E 2.
Tukaj lahko dostopate do celotne raziskave.
Pustite Odgovori