Na splošno globoki generativni modeli, kot so GAN, VAE in avtoregresivni modeli, rešujejo težave pri sintezi slike.
Glede na visoko kakovost podatkov, ki jih ustvarijo, so generativna kontradiktorna omrežja (GAN) v zadnjih letih prejela veliko pozornosti.
Difuzijski modeli so še eno zanimivo področje študija, ki se je uveljavilo. Področja generiranja slike, videa in glasu sta oba našla široko uporabo.
Difuzijski modeli v primerjavi z GAN-ji: Kateri daje boljše rezultate? Seveda je to vodilo v stalno razpravo.
V računalniški arhitekturi, znani kot GAN, dva nevronske mreže borijo drug proti drugemu, da proizvedejo na novo sintetizirane primerke podatkov, ki lahko veljajo za pristne podatke.
Difuzijski modeli postajajo vedno bolj priljubljeni, saj zagotavljajo stabilnost treninga in visoke rezultate pri ustvarjanju glasbe in grafike.
Ta članek bo podrobno obravnaval difuzijski model in GAN-je, pa tudi, kako se med seboj razlikujejo in nekaj drugih stvari.
Torej, kaj so generativna kontradiktorna omrežja?
Da bi ustvarili nove, umetne primerke podatkov, ki bi jih lahko zamenjali za pristne podatke, generativna kontradiktorna omrežja (GAN) uporabljajo dve nevronski mreži in ju postavijo eno proti drugi (torej "adversarial" v imenu).
Obširno se uporabljajo za ustvarjanje govora, videa in slik.
Cilj GAN je ustvariti prej neodkrite podatke iz določenega niza podatkov. Poskus sklepanja o modelu dejanske, neidentificirane osnovne distribucije podatkov iz vzorcev to doseže.
Drugače rečeno, ta omrežja so implicitni modeli, ki se poskušajo naučiti specifične statistične porazdelitve.
Metoda, ki jo je GAN uporabil za odkrivanje, kako doseči ta cilj, je bila nova. Pravzaprav proizvajajo podatke tako, da igrajo igro dveh igralcev, da razvijejo implicitni model.
V nadaljevanju je opisana struktura:
- diskriminator, ki pridobi sposobnost razlikovanja med verodostojnimi in lažnimi podatki
- generator, ki izbere nove načine za ustvarjanje podatkov, lahko pretenta diskriminatorja.
Diskriminator se predstavlja kot nevronska mreža. Zato mora generator ustvariti sliko visoke kakovosti, da jo prevara.
Dejstvo, da ti generatorji niso usposobljeni za uporabo kakršne koli izhodne porazdelitve, je pomembna razlika med modeli samodejnega kodiranja in drugimi modeli.
Obstajata dva načina za razgradnjo funkcije izgube modela:
- sposobnost kvantifikacije, če diskriminator natančno predvidi resnične podatke
- ustvarjeni podatki so natančno predvideni po delu.
Na najboljšem možnem diskriminatorju se ta funkcija izgube nato minimizira:
Generične modele je torej mogoče obravnavati kot modele minimizacije razdalje in, če je diskriminator idealen, kot minimizacijo divergence med resnično in proizvedeno porazdelitvijo.
V resnici se lahko uporabijo različne razlike in povzročijo različne metode usposabljanja GAN.
Dinamiki učenja, ki vključuje kompromis med generatorjem in diskriminatorjem, je težko slediti, čeprav je preprosto prilagoditi funkcijo izgube GAN-jev.
Prav tako ni zagotovil, da bo učenje konvergiralo. Posledično je usposabljanje modela GAN težko, saj je značilno, da naletimo na težave, kot so izginjajoči gradienti in sesutje načina (če v ustvarjenih vzorcih ni raznolikosti).
Zdaj je čas za difuzijske modele
Težava s konvergenco usposabljanja GAN je bila rešena z razvojem difuzijskih modelov.
Ti modeli predpostavljajo, da je difuzijski proces enakovreden izgubi informacij, ki jo povzroča progresivna interferenca hrupa (gaussov šum se doda v vsakem časovnem koraku difuzijskega procesa).
Namen takšnega modela je ugotoviti, kako šum vpliva na informacije, ki so prisotne v vzorcu, oziroma, povedano drugače, koliko informacij se izgubi zaradi difuzije.
Če lahko model to ugotovi, bi moral biti sposoben pridobiti izvirni vzorec in razveljaviti izgubo informacij, do katere je prišlo.
To se doseže z modelom difuzije z odpravljanjem hrupa. Postopek difuzije naprej in postopek povratne difuzije sestavljata dva koraka.
Postopek difuzije naprej vključuje postopno dodajanje Gaussovega šuma (tj. proces difuzije), dokler podatki niso popolnoma onesnaženi s šumom.
Nevronska mreža se nato usposobi z metodo povratne difuzije, da se nauči pogojnih porazdelitvenih verjetnosti za obračanje hrupa.
Tukaj lahko izveste več o difuzijski model.
Difuzijski model proti GAN-jem
Tako kot difuzijski model tudi GAN proizvajajo slike iz šuma.
Model je sestavljen iz generatorske nevronske mreže, ki se začne s šumom neke informativne pogojene spremenljivke, kot je oznaka razreda ali kodiranje besedila.
Rezultat bi moral biti nekaj, kar spominja na realistično sliko.
Za ustvarjanje fotorealističnih generacij slik visoke ločljivosti uporabljamo GAN. Z uporabo difuzijskih modelov so ustvarjeni celo bolj realistični vizualni elementi kot GAN.
Na nek način so difuzijski modeli natančnejši pri opisovanju dejstev.
Medtem ko GAN kot vhod sprejme naključni šum ali spremenljivko pogojevanja razreda in izpiše realističen vzorec, so difuzijski modeli pogosto počasnejši, iterativni in potrebujejo veliko več navodil.
Ni veliko prostora za napake, ko se odstranjevanje hrupa uporablja večkrat s ciljem vrnitve na izvirno sliko iz šuma.
Vsaka kontrolna točka je skozi celotno fazo ustvarjanja in z vsakim korakom lahko slika pridobi vedno več informacij.
zaključek
Skratka, zaradi nekaj pomembnih raziskav, ki so bile objavljene šele v letih 2020 in 2021, lahko difuzijski modeli zdaj prekašajo GAN-je v smislu sinteze slike.
Letos je bil predstavljen OpenAI DALL-E2, model produkcije slike, ki izvajalcem omogoča uporabo difuzijskih modelov.
Čeprav so omrežja GAN vrhunska, jih je zaradi njihovih omejitev težko prilagajati in uporabljati v novih kontekstih.
Da bi dosegli kakovost vzorca, podobno GAN, z uporabo modelov, ki temeljijo na verjetnosti, je bilo vanj vloženega veliko dela.
Pustite Odgovori