Općenito, duboki generativni modeli kao što su GAN, VAE i autoregresivni modeli rješavaju probleme sinteze slike.
S obzirom na visok kvalitet podataka koje stvaraju, generativne adversarilne mreže (GAN) su dobile veliku pažnju posljednjih godina.
Modeli difuzije su još jedna fascinantna oblast proučavanja koja se etablirala. Polja generisanja slike, videa i glasa su našla široku upotrebu za oboje.
Difuzijski modeli naspram GAN-ova: koji proizvodi bolje rezultate? Naravno, ovo je dovelo do stalne rasprave.
U računarskoj arhitekturi poznatoj kao GAN, dva neuronske mreže se bore jedni protiv drugih kako bi se proizvele novosintetizirane instance podataka koji mogu predstavljati prave podatke.
Difuzioni modeli postaju sve popularniji jer pružaju stabilnost treninga i visoke rezultate za proizvodnju muzike i grafike.
Ovaj članak će detaljno proći kroz model difuzije i GAN-ove, kao i kako se oni međusobno razlikuju i nekoliko drugih stvari.
Dakle, šta su generativne adversarijske mreže?
Da bi se stvorile nove, vještačke instance podataka koje bi se mogle zamijeniti za prave podatke, generativne adversarilne mreže (GAN) koriste dvije neuronske mreže i suprotstavljaju ih jedna drugoj (dakle, „adversarial“ u nazivu).
Oni se uveliko koriste za stvaranje govora, videa i slika.
Cilj GAN-a je kreiranje prethodno neotkrivenih podataka iz određenog skupa podataka. Pokušaj da se zaključi model stvarne, neidentifikovane distribucije osnovnih podataka iz uzoraka, to čini.
Alternativno rečeno, ove mreže su implicitni modeli koji pokušavaju naučiti specifičnu statističku distribuciju.
Metoda koju je GAN koristio da otkrije kako postići ovaj cilj bila je nova. U stvari, oni proizvode podatke igrajući igru za dva igrača kako bi razvili implicitni model.
Sljedeće opisuje strukturu:
- diskriminator koji stječe mogućnost razlikovanja autentičnih i lažnih podataka
- generator koji bira nove načine za kreiranje podataka može prevariti diskriminatora.
Diskriminator se predstavlja kao neuronska mreža. Stoga, generator mora stvoriti sliku visokog kvaliteta da bi je prevario.
Činjenica da ovi generatori nisu obučeni koristeći bilo kakvu izlaznu distribuciju je značajna razlika između modela autoenkodera i drugih modela.
Postoje dva načina da se dekomponira funkcija gubitka modela:
- mogućnost kvantifikacije da li diskriminator tačno predviđa stvarne podatke
- generirani podaci se precizno predviđaju dijelom.
Na najboljem mogućem diskriminatoru, ova funkcija gubitka se tada minimizira:
Generički modeli se stoga mogu posmatrati kao modeli minimizacije udaljenosti i, ako je diskriminator idealan, kao minimizacija divergencije između prave i proizvedene distribucije.
U stvarnosti, različite divergencije se mogu koristiti i rezultirati različitim GAN metodama obuke.
Dinamiku učenja, koja uključuje kompromis između generatora i diskriminatora, teško je pratiti, uprkos tome što je jednostavno prilagoditi funkciju gubitka GAN-ova.
Takođe nema garancija da će se učenje približiti. Kao rezultat toga, obučavanje GAN modela je teško, jer je tipično naići na probleme poput nestajanja gradijenta i kolapsa moda (kada nema raznolikosti u generisanim uzorcima).
Sada je vrijeme za modele difuzije
Problem sa konvergencijom treninga GAN-a je riješen razvojem modela difuzije.
Ovi modeli pretpostavljaju da je proces difuzije ekvivalentan gubitku informacija uzrokovanom progresivnom interferencijom buke (gausov šum se dodaje u svakom vremenskom koraku procesa difuzije).
Svrha takvog modela je da se utvrdi kako šum utiče na informacije prisutne u uzorku, ili, drugačije rečeno, koliko informacija se gubi usled difuzije.
Ako model to može shvatiti, trebao bi biti u mogućnosti da dohvati originalni uzorak i poništi gubitak informacija koji se dogodio.
Ovo se postiže kroz model difuzije za smanjenje šuma. Proces difuzije naprijed i proces reverzne difuzije čine dva koraka.
Proces difuzije prema naprijed uključuje postepeno dodavanje Gaussovog šuma (tj. proces difuzije) sve dok podaci nisu potpuno kontaminirani šumom.
Neuronska mreža se naknadno obučava korištenjem metode reverzne difuzije kako bi naučila vjerovatnoće uvjetne distribucije za preokrenuti šum.
Ovdje možete razumjeti više o difuzioni model.
Model difuzije protiv GAN-ova
Poput modela difuzije, GAN proizvodi slike iz šuma.
Model je sastavljen od generatorske neuronske mreže, koja počinje sa šumom neke informativne uslovne varijable, kao što je oznaka klase ili kodiranje teksta.
Rezultat bi tada trebao biti nešto što podsjeća na realističnu sliku.
Za kreiranje fotorealističnih i visoko vjernih generacija slika, koristimo GAN-ove. Čak realističniji vizualni prikazi od GAN-a se proizvode korištenjem difuzijskih modela.
Na neki način, modeli difuzije su precizniji u opisivanju činjenica.
Dok GAN kao ulaz uzima slučajni šum ili varijablu za uslovljavanje klase i daje realističan uzorak, modeli difuzije su često sporiji, iterativni i trebaju mnogo više smjernica.
Nema puno prostora za greške kada se uklanjanje šuma primjenjuje više puta s ciljem vraćanja na originalnu sliku iz šuma.
Kroz fazu kreiranja prolazi se kroz svaku kontrolnu tačku, a sa svakim korakom slika može dobiti sve više i više informacija.
zaključak
U zaključku, zbog nekoliko značajnih istraživanja koja su objavljena tek 2020-ih i 2021. godine, modeli difuzije sada mogu nadmašiti GAN-ove u smislu sinteze slike.
Ove godine je lansiran OpenAI DALL-E2, model proizvodnje slike koji omogućava praktičarima da koriste difuzijske modele.
Iako su GAN-ovi najmoderniji, njihova ograničenja čine izazovom njihovo skaliranje i korištenje u novim kontekstima.
Da bi se postigao kvalitet uzorka sličan GAN-u korištenjem modela zasnovanih na vjerovatnoći, uloženo je mnogo posla.
Ostavite odgovor