Tartalomjegyzék[Elrejt][Előadás]
Általában a mélygeneratív modellek, például a GAN-ok, VAE-k és az autoregresszív modellek kezelik a képszintézis problémákat.
Az általuk létrehozott adatok magas minősége miatt a generatív ellenséges hálózatok (GAN-ok) nagy figyelmet kaptak az elmúlt években.
A diffúziós modellek egy másik lenyűgöző kutatási terület, amely bevált. A kép-, videó- és hanggenerálás területe egyaránt széles körben használatos mindkettő számára.
Diffúziós modellek kontra GAN-ok: melyik produkál jobb eredményeket? Ez természetesen folyamatos vitához vezetett.
A GAN néven ismert számítási architektúrában két neurális hálózatok harcolnak egymás ellen, hogy olyan újonnan szintetizált adatpéldányokat hozzanak létre, amelyek átadhatók valódi adatoknak.
A diffúziós modellek egyre népszerűbbek, mivel edzési stabilitást és kiváló eredményeket biztosítanak a zene és a grafika előállításához.
Ez a cikk részletesen áttekinti a diffúziós modellt és a GAN-okat, valamint azt, hogy miben különböznek egymástól, és még néhány dologról.
Tehát mik azok a generatív ellenséges hálózatok?
Annak érdekében, hogy új, mesterséges adatpéldányokat hozzanak létre, amelyek összetéveszthetők valódi adatokkal, a generatív ellenséges hálózatok (GAN-ok) két neurális hálózatot alkalmaznak, és szembeállítják őket egymással (ezért a névben az „ellenálló”).
Széles körben használják beszéd-, videó- és képalkotásra.
A GAN célja korábban fel nem fedezett adatok létrehozása egy adott adatkészletből. Ha a mintákból megpróbálunk kikövetkeztetni a tényleges, azonosítatlan mögöttes adatok eloszlásának modelljét, ez sikerül.
Alternatív megoldásként ezek a hálózatok implicit modellek, amelyek egy adott statisztikai eloszlást próbálnak megtanulni.
A GAN módszere ennek a célnak a megvalósítására újszerű volt. Valójában kétjátékos játékkal állítanak elő adatokat, hogy implicit modellt dolgozzanak ki.
Az alábbiakban a szerkezetet ismertetjük:
- diszkriminátor, amely képes megkülönböztetni a hiteles és a hamis adatokat
- egy generátor, amely új módokat keres az adatok létrehozására, becsaphatja a megkülönböztetőt.
A diszkriminátor neurális hálózatként jelenik meg. Ezért a generátornak jó minőségű képet kell készítenie, hogy átverje.
Az a tény, hogy ezeket a generátorokat nem képezik semmilyen kimeneti elosztással, jelentős különbség az autoencoder modellek és más modellek között.
A modell veszteségfüggvényét kétféleképpen bonthatjuk fel:
- annak a képessége, hogy számszerűsítse, ha a megkülönböztető pontosan előre látja a valós adatokat
- A generált adatokat egy rész pontosan megjósolja.
A legjobb megvalósítható diszkriminátoron ez a veszteségfüggvény minimálisra csökken:
Az általános modellek ezért felfoghatók távolságminimalizálási modelleknek, és ha a diszkriminátor ideális, akkor a valódi és az előállított eloszlás közötti eltérés minimalizálásának.
A valóságban különböző eltérések alkalmazhatók, és különböző GAN képzési módszereket eredményezhetnek.
A tanulási dinamikát, amely magában foglalja a generátor és a megkülönböztető közötti kompromisszumot, nehéz követni, annak ellenére, hogy egyszerű a GAN-ok veszteségfüggvényének beállítása.
Arra sincs garancia, hogy a tanulás konvergálni fog. Ennek eredményeként egy GAN-modell betanítása nehézkes, mivel jellemzően olyan problémákkal találkozhatunk, mint az eltűnő gradiensek és a mód-összeomlás (amikor nincs sokféleség a generált mintákban).
Most itt az ideje a diffúziós modelleknek
A GAN-ok képzési konvergenciájának problémáját diffúziós modellek kidolgozásával kezelték.
Ezek a modellek feltételezik, hogy a diffúziós folyamat egyenértékű a zaj progresszív interferenciája által okozott információvesztéssel (a diffúziós folyamat minden szakaszában hozzáadódik egy Gauss-zaj).
Egy ilyen modell célja annak meghatározása, hogy a zaj hogyan befolyásolja a mintában jelenlévő információkat, vagy másképpen fogalmazva, mennyi információ veszít el a diffúzió miatt.
Ha egy modell ezt ki tudja találni, akkor képesnek kell lennie az eredeti minta visszakeresésére és a fellépő információvesztés visszaállítására.
Ez zajtalanító diffúziós modellen keresztül érhető el. Egy előre és egy fordított diffúziós folyamat alkotja a két lépést.
Az előre irányuló diffúziós folyamat magában foglalja a Gauss-zaj fokozatos hozzáadását (azaz a diffúziós folyamatot), amíg az adatokat teljesen be nem szennyezi a zaj.
A neurális hálózatot ezt követően a fordított diffúziós módszerrel betanítják, hogy megtanulják a feltételes eloszlási valószínűségeket a zaj megfordításához.
Itt többet megtudhat a diffúziós modell.
Diffúziós modell vs GAN
A diffúziós modellekhez hasonlóan a GAN-ok zajból állítanak elő képeket.
A modell egy generátor neurális hálózatból épül fel, amely valamilyen informatív kondicionáló változó, például egy osztálycímke vagy egy szöveges kódolás zajával kezdődik.
Az eredménynek olyannak kell lennie, ami egy valósághű képhez hasonlít.
A fotorealisztikus és nagy hűségű képgenerációk létrehozásához GAN-okat alkalmazunk. A GAN-oknál is valósághűbb látványt készítenek diffúziós modellek segítségével.
Bizonyos értelemben a diffúziós modellek pontosabbak a tények leírásában.
Míg a GAN bemenetként véletlenszerű zajt vagy osztálykondicionáló változót vesz, és valósághű mintát ad ki, a diffúziós modellek gyakran lassabbak, iteratívak, és sokkal több útmutatást igényelnek.
Nem sok hibalehetőség van, ha a zajtalanítást ismételten alkalmazzák azzal a céllal, hogy a zajból visszatérjenek az eredeti képhez.
Minden egyes ellenőrzőponton keresztülhaladunk a létrehozási szakaszban, és minden lépéssel a kép egyre több információhoz juthat.
Következtetés
Összefoglalva: a csak a 2020-as és 2021-es években publikált néhány jelentős kutatásnak köszönhetően a diffúziós modellek a képszintézis tekintetében ma már felülmúlhatják a GAN-okat.
Idén elindult az OpenAI DALL-E2, egy képalkotási modell, amely lehetővé teszi a szakemberek számára, hogy diffúziós modelleket alkalmazzanak.
Bár a GAN-ok élvonalbeliek, korlátaik kihívást jelentenek a méretezésük és az új kontextusokban való használatuk.
Annak érdekében, hogy a valószínűség alapú modellekkel GAN-szerű mintaminőséget érjünk el, nagyon sok munka történt.
Hagy egy Válaszol