În ultimii ani, modelele generative numite „modele de difuzie” au devenit din ce în ce mai populare și cu motive întemeiate.
Lumea a văzut de ce sunt capabile modelele de difuzie, cum ar fi depășirea GAN-urilor în sinteza imaginilor, datorită câtorva publicații de referință publicate tocmai în anii 2020 și 2021.
Practicanții au văzut cel mai recent utilizarea modelelor de difuzie în DALL-E2, modelul de creare a imaginii OpenAI care a fost publicat luna trecută.
Mulți practicanți de învățare automată sunt, fără îndoială, curioși cu privire la funcționarea interioară a modelelor de difuzie, având în vedere recenta lor creștere a succesului.
În această postare, ne vom uita la bazele teoretice ale modelelor de difuzie, designul lor, avantajele lor și multe altele. Haide să mergem.
Ce este modelul de difuzie?
Să începem prin a descoperi de ce acest model este denumit model de difuzie.
Un cuvânt legat de termodinamică la orele de fizică se numește difuzie. Un sistem nu este în echilibru dacă există o concentrație mare de material, cum ar fi un miros, într-un loc.
Difuzia trebuie să aibă loc pentru ca sistemul să intre în echilibru. Moleculele parfumului difuzează în întregul sistem dintr-o regiune cu o concentrație mai mare, făcând sistemul uniform pe tot parcursul.
Totul devine în cele din urmă omogen datorită difuziei.
Modelele de difuzie sunt motivate de această condiție termodinamică de neechilibru. Modelele de difuzie folosesc un lanț Markov, care este o serie de variabile în care valoarea fiecărei variabile se bazează pe starea evenimentului anterior.
Făcând o fotografie, îi adăugăm succesiv o anumită cantitate de zgomot pe parcursul fazei de difuzie înainte.
După stocarea imaginii mai zgomotoase, procedăm la crearea imaginii ulterioare în serie prin introducerea de zgomot suplimentar.
De mai multe ori, această procedură este efectuată. O imagine de zgomot pur rezultă din repetarea acestei metode de câteva ori.
Cum putem crea o imagine din această imagine aglomerată?
Procesul de difuzie este inversat folosind a rețele neuronale. Aceleași rețele și aceleași greutăți sunt utilizate în procesul de difuzie înapoi pentru a crea imaginea de la t la t-1.
În loc să lăsați rețeaua să anticipeze imaginea, se poate încerca să prezică zgomotul la fiecare pas, care trebuie eliminat din imagine, pentru a simplifica și mai mult sarcina.
În orice scenariu, proiectarea rețelei neuronale trebuie selectat într-un mod care să mențină dimensionalitatea datelor.
Deep Dive în modelul de difuzie
Componentele unui model de difuzie sunt un proces înainte (cunoscut și ca proces de difuzie), în care un datum (adesea o imagine) este zgomotat treptat și un proces invers (cunoscut și ca proces de difuzie inversă), în care zgomotul este convertit înapoi într-un eșantion din distribuția țintă.
Când nivelul de zgomot este suficient de scăzut, gaussienii condiționali pot fi utilizați pentru a stabili tranzițiile lanțului de eșantionare în procesul înainte. O parametrizare ușoară a procesului înainte rezultă din cuplarea acestor cunoștințe cu ipoteza Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Aici cinci….T este un program de varianță (fie învățat, fie fix) care asigură, pentru T suficient de mare, că xT este practic un Gaussian izotrop.
Procesul opus este locul în care are loc magia modelului de difuzie. Modelul învață să inverseze acest proces de difuzie în timpul antrenamentului pentru a produce date noi. Modelul învață distribuția comună ca (x0:T) rezultatul începerii cu ecuația pură a zgomotului gaussian
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
unde sunt descoperiți parametrii dependenți de timp ai tranzițiilor gaussiene. În special, luați notă de modul în care formularea Markov afirmă că o distribuție dată de tranziție de difuzie inversă depinde exclusiv de pasul de timp anterior (sau pasul de timp ulterioar, în funcție de modul în care o priviți):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Formare model
Un model Markov invers care maximizează probabilitatea datelor de antrenament este utilizat pentru a antrena un model de difuzie. Practic vorbind, antrenamentul este analog cu reducerea limitei superioare variaționale a probabilității logului negativ.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modele
Acum trebuie să decidem cum să executăm modelul nostru de difuzie după ce stabilim bazele matematice ale funcției noastre de obiectiv. Singura decizie necesară pentru procesul de avans este determinarea programului de variație, ale cărui valori cresc de obicei în timpul procedurii.
Luăm în considerare cu tărie utilizarea parametrizării distribuției gaussiene și a arhitecturii modelului pentru procedura inversă.
Singura condiție a designului nostru este ca atât intrarea, cât și ieșirea să aibă aceleași dimensiuni. Acest lucru subliniază gradul enorm de libertate pe care îl oferă modelele de difuzie.
Mai jos, vom intra în mai multe detalii despre aceste opțiuni.
Procesul înainte
Trebuie să furnizăm programul de variație în raport cu procesul de avans. Le-am stabilit în mod special să fie constante dependente de timp și am ignorat posibilitatea ca acestea să poată fi învățate. Un program cronologic de la
β1 = 10−4 până la βT = 0.02.
Lt devine o constantă în raport cu setul nostru de parametri învățați datorită programului de variație fix, permițându-ne să-l ignorăm în timpul antrenamentului, indiferent de valorile specifice selectate.
Proces invers
Acum trecem peste deciziile necesare pentru a defini procesul invers. Amintiți-vă cum am descris tranzițiile inverse Markov ca Gaussiene:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Acum că am identificat tipurile funcționale. În ciuda faptului că există tehnici mai complicate de parametrizat, doar am stabilit
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Altfel spus, considerăm că gaussianul multivariat este rezultatul unor gaussieni separati cu aceeași varianță, o valoare a varianței care poate fluctua în timp. Aceste abateri sunt setate pentru a se potrivi cu calendarul abaterilor procesului de expediere.
Ca urmare a acestei noi formulări, noi avem:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Acest lucru are ca rezultat funcția de pierdere alternativă prezentată mai jos, despre care autorii au descoperit că produce un antrenament mai consistent și rezultate superioare:
Lsimplu(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Autorii stabilesc, de asemenea, conexiuni între această formulare a modelelor de difuzie și modelele generative de potrivire a scorurilor bazate pe Langevin. Ca și în cazul dezvoltării independente și paralele a fizicii cuantice bazate pe unde și a mecanicii cuantice bazate pe matrice, care au scos la iveală două formulări comparabile ale acelorași fenomene, se pare că modelele de difuzie și modelele bazate pe scoruri pot fi două fețe ale aceleiași monede.
Arhitectura rețelei
În ciuda faptului că funcția noastră de pierdere condensată își propune să antreneze un model Σθ, încă nu ne-am hotărât asupra arhitecturii acestui model. Rețineți că modelul trebuie pur și simplu să aibă aceleași dimensiuni de intrare și de ieșire.
Având în vedere această constrângere, probabil că nu este neașteptat că arhitecturile de tip U-Net sunt utilizate frecvent pentru a crea modele de difuzie a imaginii.
Numeroase modificări sunt făcute de-a lungul traseului procesului invers în timp ce se utilizează distribuții gaussiene condiționate continue. Amintiți-vă că scopul procedurii inverse este de a crea o imagine formată din valori întregi de pixeli. Prin urmare, este necesară determinarea probabilităților discrete (log) pentru fiecare valoare potențială a pixelului pe toți pixelii.
Acest lucru se realizează prin alocarea unui decodor discret separat ultimei tranziții a lanțului de difuzie inversă. estimarea șansei unei anumite imagini x0 dat X1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ dacă x = 1 x + 1 255 dacă x < 1 δ−(x) = −∞ dacă x = −1 x − 1 255 dacă x > −1
unde indicele I desemnează extragerea unei coordonate și D indică numărul de dimensiuni din date.
Obiectivul în acest moment este de a stabili probabilitatea fiecărei valori întregi pentru un anumit pixel, având în vedere distribuția valorilor potențiale pentru acel pixel în intervalul care variază în timp. t=1.
Obiectiv final
Cele mai bune rezultate, potrivit oamenilor de știință, au venit din prognoza componentei de zgomot a unei imagini la un anumit pas de timp. În cele din urmă, au următorul scop:
Lsimplu(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
În imaginea următoare, procedurile de pregătire și eșantionare pentru modelul nostru de difuzie sunt descrise concis:
Beneficiile modelului de difuzie
După cum sa indicat deja, volumul cercetărilor privind modelele de difuzie s-a înmulțit recent. Modelele de difuzie oferă acum o calitate a imaginii de ultimă generație și sunt inspirate de termodinamica de neechilibru.
Modelele de difuzie oferă o varietate de alte avantaje în plus față de calitatea de ultimă oră a imaginii, cum ar fi faptul că nu necesită pregătire adversară.
Dezavantajele antrenamentului advers sunt larg cunoscute, prin urmare este adesea preferabil să se aleagă alternative non-adversariale cu performanță și eficiență echivalentă a antrenamentului.
Modelele de difuzie oferă, de asemenea, avantajele scalabilității și paralelizabilității în ceea ce privește eficiența antrenamentului.
Deși modelele de difuzie par să genereze rezultate aparent din aer, baza acestor rezultate este pusă de o serie de decizii și subtilități matematice bine gândite și interesante, iar cele mai bune practici din industrie sunt încă în curs de dezvoltare.
Concluzie
În concluzie, cercetătorii demonstrează rezultate de sinteză a imaginilor de înaltă calitate utilizând modele probabilistice de difuzie, o clasă de modele variabile latente motivate de idei din termodinamica de neechilibru.
Ei au realizat lucruri extraordinare datorită rezultatelor lor de ultimă oră și antrenamentului non-adversarial și, având în vedere copilăria lor, se pot anticipa mai multe progrese în anii următori.
În special, s-a descoperit că modelele de difuzie sunt cruciale pentru funcționalitatea modelelor avansate precum DALL-E 2.
Aici puteți accesa cercetarea completă.
Lasă un comentariu