În general, modelele generative profunde precum GAN-urile, VAE-urile și modelele autoregresive se ocupă de problemele de sinteză a imaginilor.
Având în vedere calitatea înaltă a datelor pe care le creează, rețelele generative adversarial (GAN) au primit multă atenție în ultimii ani.
Modelele de difuzie sunt un alt domeniu de studiu fascinant care s-a impus. Câmpurile de generare a imaginii, video și voci au găsit ambele o utilizare extinsă pentru ambele.
Modele de difuzie vs. GAN: care produce rezultate mai bune? Desigur, acest lucru a dus la o discuție în curs.
În arhitectura de calcul cunoscută sub numele de GAN, două rețele neuronale se luptă unul împotriva celuilalt pentru a produce exemple de date nou sintetizate care pot fi transmise drept date autentice.
Modelele de difuzie devin din ce în ce mai populare, deoarece oferă stabilitate de antrenament și rezultate ridicate pentru producerea de muzică și grafică.
Acest articol va analiza în detaliu modelul de difuzie și GAN-urile, precum și modul în care diferă unul de celălalt și alte câteva lucruri.
Deci, ce sunt rețelele adversare generative?
Pentru a crea instanțe noi, artificiale de date care ar putea fi confundate cu date autentice, rețelele generative adversarial (GAN) folosesc două rețele neuronale și le pun una împotriva celeilalte (deci „adversarial” din nume).
Sunt utilizate pe scară largă pentru crearea de vorbire, video și imagini.
Obiectivul GAN este de a crea date nedescoperite anterior dintr-un anumit set de date. Încercarea de a deduce un model de distribuție reală, neidentificată a datelor subiacente din eșantioane, face acest lucru.
Alternativ spus, aceste rețele sunt modele implicite care încearcă să învețe o distribuție statistică specifică.
Metoda folosită de GAN pentru a descoperi cum să atingă acest scop a fost nouă. De fapt, ei produc date jucând un joc cu doi jucători pentru a dezvolta un model implicit.
Următoarele descrie structura:
- un discriminator care dobândește capacitatea de a face diferența între datele autentice și cele false
- un generator care preia noi moduri de a crea date poate păcăli discriminatorul.
Discriminatorul se prezintă ca o rețea neuronală. Prin urmare, generatorul trebuie să creeze o imagine de înaltă calitate pentru a o păcăli.
Faptul că aceste generatoare nu sunt antrenate folosind nicio distribuție de ieșire este o distincție semnificativă între modelele de autoencoder și alte modele.
Există două moduri de a descompune funcția de pierdere a modelului:
- capacitatea de a cuantifica dacă discriminatorul prevede cu exactitate date reale
- datele generate sunt prezise cu acuratețe de o porțiune.
Pe cel mai bun discriminator fezabil, această funcție de pierdere este apoi minimizată:
Prin urmare, modelele generice pot fi gândite ca modele de minimizare a distanței și, dacă discriminatorul este ideal, ca minimizarea divergenței dintre distribuția adevărată și cea produsă.
În realitate, pot fi utilizate diferite divergențe și au ca rezultat diferite metode de antrenament GAN.
Dinamica de învățare, care include un compromis între generator și discriminator, este dificil de urmat, în ciuda faptului că este simplu de ajustat funcția de pierdere a GAN-urilor.
De asemenea, nu există asigurări că învățarea va converge. Ca rezultat, antrenarea unui model GAN este dificilă, deoarece este tipic să treci peste probleme precum gradienții care dispar și colapsul modului (când nu există diversitate în mostrele generate).
Acum, este timpul pentru modelele de difuzie
Problema convergenței instruirii GAN-urilor a fost abordată prin dezvoltarea modelelor de difuzie.
Aceste modele presupun că un proces de difuzie este echivalent cu pierderea de informații cauzată de interferența progresivă a zgomotului (un zgomot gaussian este adăugat la fiecare pas de timp al procesului de difuzie).
Scopul unui astfel de model este de a determina modul în care zgomotul afectează informația prezentă în eșantion sau, altfel spus, cât de multă informație se pierde din cauza difuziei.
Dacă un model poate înțelege acest lucru, ar trebui să fie capabil să recupereze eșantionul original și să anuleze pierderea de informații care a avut loc.
Acest lucru se realizează printr-un model de difuzie de dezgomot. Un proces de difuzie înainte și un proces de difuzie inversă formează cele două etape.
Procesul de difuzie înainte implică adăugarea treptată a zgomotului gaussian (adică procesul de difuzie) până când datele sunt complet contaminate de zgomot.
Rețeaua neuronală este ulterior antrenată folosind metoda difuziei inverse pentru a învăța probabilitățile de distribuție condiționată pentru a inversa zgomotul.
Aici puteți înțelege mai multe despre model de difuzie.
Modelul de difuzie vs GAN
Ca un model de difuzie, GAN-urile produc imagini din zgomot.
Modelul este alcătuit dintr-o rețea neuronală generatoare, care începe cu zgomotul unei variabile de condiționare informativă, cum ar fi o etichetă de clasă sau o codificare de text.
Rezultatul ar trebui să fie ceva care să semene cu o imagine realistă.
Pentru a crea generații de imagini fotorealiste și de înaltă fidelitate, folosim GAN-uri. Chiar și imaginile mai realiste decât GAN-urile sunt produse folosind modele de difuzie.
Într-un fel, modelele de difuzie sunt mai precise în descrierea faptelor.
În timp ce un GAN ia ca intrare zgomot aleator sau o variabilă de condiționare a clasei și scoate un eșantion realist, modelele de difuzie sunt adesea mai lente, iterative și au nevoie de mult mai multă îndrumare.
Nu există mult loc de eroare atunci când dezgomotul este aplicat în mod repetat, cu scopul de a reveni la imaginea originală din zgomot.
Fiecare punct de control este trecut de-a lungul etapei de creare și, cu fiecare pas, imaginea poate obține din ce în ce mai multe informații.
Concluzie
În concluzie, datorită puținelor cercetări semnificative care au fost publicate abia în anii 2020 și 2021, modelele de difuzie pot depăși acum GAN-urile în ceea ce privește sinteza imaginii.
Anul acesta s-a lansat OpenAI DALL-E2, un model de producție de imagini care permite practicienilor să folosească modele de difuzie.
Deși GAN-urile sunt de ultimă oră, constrângerile lor fac dificilă scalarea și utilizarea lor în contexte noi.
Pentru a obține o calitate a eșantionului asemănătoare GAN folosind modele bazate pe probabilitate, s-a depus multă muncă.
Lasă un comentariu