Inhaltsverzeechnes[Verstoppen][Show]
An de leschte Jore sinn generativ Modeller genannt "Diffusiounsmodeller" ëmmer méi populär ginn, a mat guddem Zweck.
D'Welt huet gesinn wat Diffusiounsmodeller fäeg sinn, sou wéi GANs op Bildsynthese besser ze maachen, dank e puer ausgewielte Landmark Publikatiounen, déi just an den 2020er an 2021er publizéiert goufen.
D'Praktiker hunn zënter kuerzem d'Benotzung vun Diffusiounsmodeller gesinn DALL-E2, OpenAI's Bildkreatiounsmodell dee leschte Mount publizéiert gouf.
Vill Machine Learning Praktiker sinn ouni Zweifel virwëtzeg iwwer déi bannenzeg Aarbechte vun Diffusiounsmodeller wéinst hirem rezenten Erfolleg.
An dësem Post wäerte mir d'theoretesch Basis vun Diffusion Modeller kucken, hiren Design, hir Virdeeler, a vill méi. Loosst eis lass goen.
Wat ass den Diffusiounsmodell?
Loosst eis ufänken mat erauszefannen firwat dëse Modell als Diffusiounsmodell bezeechent gëtt.
E Wuert am Zesummenhang mat der Thermodynamik an de Physikklassen gëtt Diffusioun genannt. E System ass net am Gläichgewiicht wann et eng grouss Konzentratioun vun engem Material ass, wéi e Geroch, op enger Plaz.
D'Diffusioun muss optrieden fir datt de System an d'Gläichgewiicht kënnt. D'Moleküle vum Doft diffusen duerch de System aus enger Regioun mat enger méi héijer Konzentratioun, wat de System uechter uniform mécht.
Alles gëtt schlussendlech homogen wéinst Diffusioun.
D'Diffusiounsmodeller si motivéiert vun dësem thermodynamesche Net-Gläichgewiichtbedingung. D'Diffusionsmodeller benotzen eng Markov Kette, déi eng Serie vu Variablen ass, wou de Wäert vun all Variabel op den Zoustand vum viregten Event hänkt.
E Bild ze huelen, addéiere mer successiv e bestëmmte Betrag u Kaméidi der ganzer Forward Diffusiounsphase.
Nodeems mir dat méi lauter Bild gespäichert hunn, gi mir weider fir dat spéider Bild an der Serie ze kreéieren andeems Dir zousätzlech Kaméidi agefouert.
E puer Mol gëtt dës Prozedur gemaach. E pure Kaméidi Bild resultéiert aus der Widderhuelung vun dëser Method e puer Mol.
Wéi kënne mir dann e Bild aus dësem iwwerflëssege Bild erstellen?
Den Diffusiounsprozess gëtt ëmgedréit mat engem neural Netz. Déiselwecht Netzwierker an déiselwecht Gewiichter ginn am Réckdiffusiounsprozess benotzt fir d'Bild vun t bis t-1 ze kreéieren.
Amplaz d'Netzwierk d'Bild virzegoen ze loossen, kann ee versichen de Kaméidi bei all Schrëtt virauszesoen, deen aus dem Bild geläscht gëtt, fir d'Aufgab weider ze vereinfachen.
An all Szenario, der neural Netzwierkdesign muss op eng Manéier ausgewielt ginn, datt d'Daten Dimensioun hält.
Deep Dive an Diffusiounsmodell
D'Komponente vun engem Diffusiounsmodell sinn e Forward-Prozess (och als Diffusiounsprozess bekannt), an deem e Datum (dacks e Bild) graduell geraumt gëtt, an e Reverse Prozess (och als Reverse Diffusiounsprozess bekannt), an deem Kaméidi ass. zréck an eng Prouf aus der Zilverdeelung ëmgewandelt.
Wann de Kaméidiniveau niddereg genuch ass, kënne bedingt Gaussianer benotzt ginn fir d'Proufketteniwwergäng am Forwardprozess z'etabléieren. Eng einfach Parameteriséierung vum Forward-Prozess resultéiert aus der Kopplung vun dësem Wëssen mat der Markov-Annam:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
hei eent….T ass e Varianzplang (entweder geléiert oder fixéiert) dat garantéiert, fir genuch héich T, datt xT quasi en isotrope Gauss ass.
De Géigendeel Prozess ass wou Diffusioun Modell Magie geschitt. De Modell léiert dësen Diffusiounsprozess wärend der Ausbildung ëmgedréint fir frësch Daten ze produzéieren. De Modell léiert de gemeinsame Verdeelung als (x0:T) d'Resultat vu Start mat der reng Gaussian Kaméidi Equatioun
(xT):=N(xT,0,I).
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
wou d'Zäit-ofhängeg Parameter vun de Gauss-Iwwergäng entdeckt ginn. Notéiert besonnesch wéi d'Markov Formuléierung seet datt eng gegebene ëmgedréint Diffusioun Iwwergangsverdeelung exklusiv vun der viregter Zäitschrëtt (oder spéider Zäitschrëtt hänkt, jee no wéi Dir et kuckt):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Model Training
E ëmgedréint Markov Modell deen d'Wahrscheinlechkeet vun den Trainingsdaten maximéiert gëtt benotzt fir en Diffusiounsmodell ze trainéieren. Praktesch gesinn ass Training analog mat der Ofsenkung vun der Variatiouns-Uewergrenz op der negativer Log Probabilitéit.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T) q(x1:T |x0) = Eq − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modeller
Mir mussen elo entscheeden wéi eisen Diffusiounsmodell auszeféieren nodeems mir déi mathematesch Ënnerstëtzung vun eiser Zilfunktioun etabléiert hunn. Déi eenzeg Entscheedung déi néideg ass fir de Forward Prozess ass d'Bestëmmung vum Varianzplang, deem seng Wäerter normalerweis während der Prozedur eropgoen.
Mir betruechten staark d'Gaussian Verdeelungsparameteriséierung a Modellarchitektur fir déi ëmgedréint Prozedur ze benotzen.
Déi eenzeg Bedingung vun eisem Design ass datt souwuel den Input wéi och den Output déiselwecht Dimensiounen hunn. Dëst ënnersträicht den enorme Grad vu Fräiheet déi Diffusiounsmodeller ubidden.
Drënner wäerte mir méi a méi Déift iwwer dës Optiounen goen.
Forward Prozess
Mir mussen d'Varianz Zäitplang a Relatioun zu der Forward Prozess ubidden. Mir setzen se speziell op Zäit-ofhängeg Konstanten an hunn d'Méiglechkeet ignoréiert datt se kënne geléiert ginn. Eng chronologesch Zäitplang aus
β1 = 10−4 bis βT = 0.02.
Lt gëtt e konstante mat Respekt fir eise Set vu léierbare Parameteren wéinst dem fixen Varianzplang, wat eis erlaabt et während Training ze ignoréieren onofhängeg vun de spezifesche gewielte Wäerter.
Ëmgedréint Prozess
Mir ginn elo iwwer d'Entscheedungen, déi néideg sinn fir de ëmgekéierte Prozess ze definéieren. Denkt drun wéi mir déi ëmgedréint Markov Iwwergäng als Gauss beschriwwen hunn:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Elo hu mir déi funktionell Aarte identifizéiert. Trotz der Tatsaach, datt et méi komplizéiert Techniken fir Parameteren sinn, setzen mir just
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Fir et anescht auszedrécken, betruechte mir de multivariate Gauss als Resultat vun getrennten Gausser mat der selwechter Varianz, e Varianzwäert dee mat der Zäit schwankt. Dës Ofwäichunge si gesat fir dem Zäitplang vun der Forwarding Prozess Ofwäichungen ze passen.
Als Resultat vun dëser neier Formuléierung, mir hunn:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dëst resultéiert an der alternativer Verloschtfunktioun hei ënnendrënner, déi d'Auteuren fonnt hunn fir méi konsequent Training a super Resultater ze produzéieren:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
D'Auteuren molen och Verbindungen tëscht dëser Formuléierung vun Diffusioun Modeller a Langevin-baséiert Score-passende generative Modeller. Wéi mat der onofhängeger a paralleler Entwécklung vun der Welle-baséierter Quantephysik a Matrix-baséierter Quantemechanik, déi zwou vergläichbar Formuléierunge vun de selwechte Phänomener opgedeckt huet, schéngt et datt Diffusiounsmodeller a Score-baséiert Modeller zwou Säiten vun der selwechter Mënz kënne sinn.
Network Architecture
Trotz der Tatsaach, datt eis condenséiert Verloscht Funktioun zielt e Modell ze trainéieren Σθ, Mir hunn nach net iwwer d'Architektur vun dësem Modell decidéiert. Denkt drun datt de Modell einfach déiselwecht Input- an Output Dimensiounen muss hunn.
Mat dëser Aschränkung ass et wahrscheinlech net onerwaart datt U-Net-ähnlech Architekturen dacks benotzt gi fir Bilddiffusiounsmodeller ze kreéieren.
Vill Ännerungen ginn laanscht de Wee vum ëmgekéierte Prozess gemaach wärend kontinuéierlech bedingt Gaussesch Verdeelungen benotzt ginn. Denkt drun datt d'Zil vun der ëmgedréiter Prozedur ass e Bild ze kreéieren dat aus ganzer Pixelwäerter besteet. D'Bestëmmung vun diskreten (Log) Wahrscheinlechkeeten fir all potenziell Pixelwäert iwwer all Pixel ass dofir néideg.
Dëst gëtt erreecht andeems en separaten diskreten Decoder un de leschten Iwwergang vun der ëmgedréint Diffusiounskette zougewisen gëtt. schätzen d'Chance vun engem bestëmmte Bild x0 entscheet x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ wann x = 1 x + 1 255 wann x < 1 δ−(x) = −∞ wann x = −1 x − 1 255 wann x > −1
wou d'Iwwerschrëft I d'Extraktioun vun enger Koordinat bezeechent an D d'Zuel vun den Dimensiounen an den Daten bezeechent.
D'Zil op dësem Punkt ass d'Wahrscheinlechkeet vun all ganzen Zuelewäert fir e spezifesche Pixel festzeleeën, wann d'Verdeelung vu potenzielle Wäerter fir dee Pixel an der Zäit variéiert gëtt. t = 1.
Finale Zil
Déi gréissten Resultater, laut Wëssenschaftler, koumen aus der Prognose vum Geräischerkomponent vun engem Bild zu engem gewëssen Zäitschrëtt. Am Endeffekt benotze se déi folgend Ziler:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Am folgende Bild sinn d'Ausbildung an d'Proufprozedure fir eisen Diffusiounsmodell präzis duergestallt:
Virdeeler vun Diffusioun Modell
Wéi schonn uginn, ass d'Quantitéit u Fuerschung iwwer Diffusiounsmodeller viru kuerzem multiplizéiert. Diffusiounsmodeller liwweren elo State-of-the-Art Bildqualitéit a si inspiréiert vun net-Gläichgewiicht Thermodynamik.
D'Diffusiounsmodeller bidden eng Vielfalt vun anere Virdeeler zousätzlech zu der moderner Bildqualitéit ze hunn, sou wéi keng adversarial Ausbildung ze erfuerderen.
D'Nodeeler vum Adversarial Training si wäit bekannt, dofir ass et dacks léiwer net-adversarial Alternativen mat gläichwäerteg Leeschtung an Trainingseffektivitéit ze wielen.
D'Diffusiounsmodeller bidden och d'Virdeeler vun der Skalierbarkeet an der Paralleliséierung a punkto Trainingseffektivitéit.
Och wann Diffusiounsmodeller schéngen Resultater ze generéieren anscheinend aus dënnem Loft, ass d'Basis fir dës Resultater duerch eng Zuel vun Duerchduechte an interessant mathematesch Entscheedungen a Subtleties geluecht, an d'Industrie Best Practices ginn nach ëmmer entwéckelt.
Konklusioun
Als Conclusioun weisen d'Fuerscher qualitativ héichwäerteg Bildsynthese Erkenntnisser mat Diffusiounsprobabilistesche Modeller, eng Klass vu latente variabelen Modeller motivéiert duerch Iddien aus der nonequilibrium Thermodynamik.
Si hunn enorm Saache erreecht dank hire State-of-the-Art Resultater an net-adversarial Ausbildung a wéinst hirer Kandheet, kënne méi Fortschrëtter an de kommende Joeren erwaart ginn.
Besonnesch gouf entdeckt datt Diffusiounsmodeller entscheedend sinn fir d'Funktionalitéit vun fortgeschratt Modeller wéi DALL-E 2.
hei Dir kënnt Zougang zu der kompletter Fuerschung.
Hannerlooss eng Äntwert