Nta l'ultimi anni, i mudelli generativi chjamati "mudelli di diffusione" sò diventati sempri più populari, è cù una bona causa.
U mondu hà vistu ciò chì sò capaci di mudelli di diffusione, cum'è superà i GAN nantu à a sintesi di l'imaghjini, grazia à uni pochi di publicazioni famose publicate solu in l'anni 2020 è 2021.
Practitioners più ricenti vistu l 'usu di mudelli diffusion in DALL-E2, U mudellu di creazione di l'imaghjini di OpenAI chì hè statu publicatu u mese passatu.
Parechji praticanti di Machine Learning sò senza dubbitu curiosi di u funziunamentu internu di i Modelli di Diffusion datu a so recente crescita di successu.
In questu post, guardemu i fundamenti teorichi di i mudelli di diffusione, u so disignu, i so vantaghji è assai di più. Andemu.
Chì ghjè u mudellu di diffusione?
Accuminciamu da capisce perchè stu mudellu hè chjamatu mudellu di diffusione.
Una parolla ligata à a termodinamica in classi di fisica hè chjamata diffusione. Un sistema ùn hè micca in equilibriu s'ellu ci hè una grande concentrazione di un materiale, cum'è un profumu, in un locu.
A diffusione deve esse per u sistema per entre in equilibriu. E molécule di l'odore diffonde in tuttu u sistema da una regione di una cuncentrazione più altu, facendu u sistema uniforme in tuttu.
Tuttu eventualmente diventa omogeneu per via di diffusione.
I mudelli di diffusione sò motivati da sta cundizione termodinamica non-equilibriu. I mudelli di diffusione utilizanu una catena di Markov, chì hè una seria di variàbili induve u valore di ogni variabile si basa nantu à u statu di l'avvenimentu prima.
Pigliendu una foto, aghjunghjenu successivamente una quantità particulare di rumore in tutta a fase di diffusione in avanti.
Dopu avè guardatu l'imaghjini più rumorosi, prucedemu à creà l'imaghjini sussegwenti in a serie introducendu un rumore supplementu.
Parechji volte, sta prucedura hè fatta. Una stampa di rumore puro risulta da ripetizione di stu metudu parechje volte.
Cumu pudemu allora creà una stampa da questa maghjina sbulicata?
U prucessu di diffusione hè inversatu cù a reta neurale. I listessi rete è i stessi pesi sò usati in u prucessu di diffusione backward per creà u ritrattu da t à t-1.
Invece di lascià a reta di anticipà l'imaghjini, si pò pruvà à predichendu u rumore à ogni passu, chì deve esse sguassatu da l'imaghjini, per simplificà ancu più u compitu.
In ogni scenariu, u cuncepimentu di a rete neurale deve esse sceltu in una manera chì mantene a dimensione di dati.
Deep Dive in u mudellu di diffusione
I cumpunenti di un mudellu di diffusione sò un prucessu in avanti (cunnisciutu ancu com'è prucessu di diffusione), in quale un datum (spessu una maghjina) hè gradualmente brusgiatu, è un prucessu inversu (cunnisciutu ancu com'è prucessu di diffusione inversa), in quale u rumore hè cunvertitu torna in una mostra da a distribuzione di destinazione.
Quandu u nivellu di rumore hè abbastanza bassu, Gaussians cundiziunali ponu esse usatu per stabilisce e transizioni di a catena di campionamentu in u prucessu avanti. Una parametrizzazione faciule di u prucessu avanti hè risultatu da l'accoppiamentu di sta cunniscenza cù l'assunzione di Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
quì Cinque….T hè un schema di varianza (apprisu o fissu) chì assicura, per un T abbastanza altu, chì xT hè virtualmente una Gaussiana isotropa.
U prucessu cuntrariu hè induve a magia mudellu di diffusione succede. U mudellu s'aprende à riversà stu prucessu di diffusione durante a furmazione in modu à pruduce dati freschi. U mudellu ampara a distribuzione cumuna cum'è (x0:T) u risultatu di principià cù l'equazione di u rumore gaussianu puru
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
induve i paràmetri dipendente di u tempu di e transizioni Gauss sò scuperti. In particulare, pigliate nota di cumu a formulazione di Markov dice chì una distribuzione di transizione di diffusione inversa data dipende solu da u passu di tempu precedente (o u passu di u tempu sussegwente, secondu cumu si vede):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Formazione di mudelli
Un mudellu di Markov inversa chì maximizes a probabilità di i dati di furmazione hè utilizatu per furmà un mudellu di diffusione. Praticamente parlante, a furmazione hè analoga à a riduzione di u limite superiore variazionale nantu à a probabilità di log negativu.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
mudeli
Avemu avà bisognu di decisu cumu eseguisce u nostru mudellu di diffusione dopu avè stabilitu i fundamenti matematichi di a nostra funzione di u scopu. L'unica decisione necessaria per u prucessu avanti hè di determinà u schedariu di varianza, chì i valori sò tipicamenti aumentanu durante a prucedura.
Cunsideremu fermamente l'usu di a parametrizzazione di a distribuzione gaussiana è l'architettura di mudellu per a prucedura inversa.
L'unica cundizione di u nostru disignu hè chì sia l'input è l'output anu a stessa dimensione. Questu sottolinea l'enorme gradu di libertà chì i mudelli di diffusione furniscenu.
Quì sottu, andemu in più profonda nantu à queste opzioni.
Prucessu avanti
Avemu da furnisce u calendariu di varianza in relazione à u prucessu avanti. L'avemu specificamente stabilitu per esse custanti dipendente da u tempu è ignoratu a pussibilità chì ponu esse amparati. Un calendariu cronologicu da
β1 = 10−4 à βT = 0.02.
Lt diventa una custante in quantu à u nostru settore di paràmetri apprendibili per via di u calendariu di varianza fissa, chì ci permette di disprezzà durante a furmazione indipendentemente da i valori specifichi selezziunati.
Prucessu inversu
Avemu avà nantu à e decisioni necessarie per definisce u prucessu inversu. Ricurdativi cumu avemu descrittu e transizioni inverse di Markov cum'è Gauss:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Avà chì avemu identificatu i tipi funziunali. Malgradu u fattu chì ci sò tecniche più intricate per parametrizzate, avemu solu stabilitu
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Per fà un altru modu, cunsideremu chì u Gauss multivariate hè u risultatu di Gaussiani separati cù a listessa varianza, un valore di varianza chì pò fluttuà cù u tempu. Queste deviazioni sò stabilite per currisponde à u calendariu di e deviazioni di u prucessu di spedizione.
In u risultatu di sta nova formulazione, avemu:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Questu risultatu in a funzione di perdita alternativa mostrata quì sottu, chì l'autori anu truvatu per pruduce una furmazione più consistente è risultati superiori:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
L'autori ancu disegnà ligami trà sta formulazione di mudelli di diffusione è mudelli generativi di partitura basati in Langevin. Cum'è cù u sviluppu indipendenti è parallelu di a fisica quantistica basata in l'onda è a meccanica quantistica basata in matrice, chì palesa duie formulazioni paragunabili di u stessu fenomenu, pare chì i mudelli di diffusione è i mudelli di Score-Based ponu esse dui lati di a stessa munita.
Architettura di Rete
Malgradu u fattu chì a nostra funzione di perdita cundensata hà per scopu di furmà un mudellu Σθ, ùn avemu ancu decisu nantu à l'architettura di stu mudellu. Tenite in mente chì u mudellu hà solu avè a listessa dimensione di input è output.
Data sta limitazione, hè prubabilmente micca inespettatu chì l'architettura U-Net-like sò spessu usate per creà mudelli di diffusione di stampa.
Numerosi cambiamenti sò fatti longu u percorsu di u prucessu inversu mentre utilizanu distribuzioni gaussiani cundiziunali cuntinui. Ricurdativi chì u scopu di a prucedura inversa hè di creà una stampa fatta di valori di pixel interi. Determinà probabilità discrete (log) per ogni valore potenziale di pixel in tutti i pixel hè dunque necessariu.
Questu hè realizatu assignendu un decodificatore discretu separatu à l'ultima transizione di a catena di diffusione inversa. stima a probabilità di una certa imaghjina x0 datatu x1
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ se x = 1 x + 1 255 se x < 1 δ−(x) = −∞ se x = −1 x − 1 255 se x > −1
induve u superscript I denota l'estrazione di una coordenada è D denota u numeru di dimensioni in i dati.
L'ughjettu à questu puntu hè di stabilisce a probabilità di ogni valore interu per un pixel specificu datu a distribuzione di valori potenziali per quellu pixel in u tempu chì varieghja. t = 1.
U scopu finale
I più grandi risultati, sicondu i scientisti, sò vinuti da a previsione di a componente di rumore di una stampa in un certu tempu. In fine, impieganu i seguenti scopi:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
In l'imaghjini seguenti, i prucessi di furmazione è di campionamentu per u nostru mudellu di diffusione sò raffigurati cuncisamente:
Beneficii di u mudellu di diffusione
Comu era digià indicatu, a quantità di ricerca nantu à i mudelli di diffusione hà multiplicatu pocu. I mudelli di diffusione furniscenu avà una qualità d'imaghjini di punta è sò ispirati da a termodinamica senza equilibriu.
I mudelli di diffusione furniscenu una varietà di altri vantaghji in più di avè una qualità di stampa d'avanguardia, cum'è ùn esige micca una furmazione avversaria.
I svantaghji di a furmazione avversaria sò largamente cunnisciuti, per quessa, hè spessu preferibile di sceglie alternative non avversaria cù prestazioni equivalenti è efficacità di furmazione.
I mudelli di diffusione furniscenu ancu i vantaghji di scalabilità è parallelisabilità in quantu à l'efficacità di furmazione.
Ancu s'è i mudelli di diffusione parevanu generà risultati apparentemente fora di l'aria magre, a basa di sti risultati hè stabilitu da una quantità di decisioni matematiche pensative è interessanti è suttilità, è e migliori pratiche di l'industria sò sempre sviluppate.
cunchiusioni
In cunclusioni, i circadori dimustranu risultati di sintesi di stampa d'alta qualità utilizendu mudelli probabilistici di diffusione, una classa di mudelli variabili latenti motivati da idee da a termodinamica non-equilibrium.
Anu ottinutu cose tremende grazia à i so risultati di u Statu di l'Arte è a furmazione non-adversarial è datu a so zitiddina, più avanzamenti ponu esse anticipati in l'anni à vene.
In particulare, hè statu scupertu chì i mudelli di diffusione sò cruciali per a funziunalità di mudelli avanzati cum'è DALL-E 2.
quì pudete accede à a ricerca cumpleta.
Lascia un Audiolibro