Vo všeobecnosti, hlboké generatívne modely ako GAN, VAE a autoregresívne modely riešia problémy so syntézou obrazu.
Vzhľadom na vysokú kvalitu údajov, ktoré vytvárajú, sa generatívnym adversariálnym sieťam (GAN) v posledných rokoch venuje veľká pozornosť.
Difúzne modely sú ďalšou fascinujúcou oblasťou štúdia, ktorá sa etablovala. Obidve oblasti tvorby obrazu, videa a hlasu našli široké využitie.
Difúzne modely vs. GAN: Čo prináša lepšie výsledky? Prirodzene to viedlo k prebiehajúcej diskusii.
Vo výpočtovej architektúre známej ako GAN, dva neurálne siete bojujú proti sebe, aby vytvorili novo syntetizované inštancie údajov, ktoré môžu slúžiť ako skutočné údaje.
Difúzne modely sú čoraz populárnejšie, pretože poskytujú stabilitu tréningu a vysoké výsledky pri produkcii hudby a grafiky.
Tento článok sa podrobne zaoberá modelom difúzie a GAN, ako aj tým, ako sa navzájom líšia a niekoľkými ďalšími vecami.
Takže, čo sú generatívne adverzné siete?
Aby sa vytvorili nové, umelé inštancie údajov, ktoré by sa mohli mylne považovať za skutočné údaje, generatívne siete protivníkov (GAN) využívajú dve neurónové siete a stavajú ich proti sebe (teda „protivník“ v názve).
Široko sa využívajú na tvorbu reči, videa a obrázkov.
Cieľom GAN je vytvoriť predtým neobjavené údaje zo špecifického súboru údajov. Pri pokuse o odvodenie modelu skutočného, neidentifikovaného základného rozloženia údajov zo vzoriek sa to podarilo.
Alternatívne povedané, tieto siete sú implicitné modely, ktoré sa pokúšajú naučiť špecifické štatistické rozdelenie.
Metóda GAN použitá na objavenie toho, ako dosiahnuť tento cieľ, bola nová. V skutočnosti produkujú údaje hraním hry pre dvoch hráčov, aby vytvorili implicitný model.
Nasleduje popis štruktúry:
- Diskriminátor, ktorý získa schopnosť rozlišovať medzi autentickými a falošnými údajmi
- generátor, ktorý získava nové spôsoby vytvárania údajov, môže oklamať diskriminátor.
Diskriminátor sa tvári ako neurónová sieť. Preto musí generátor vytvoriť obrázok s vysokou kvalitou, aby ho oklamal.
Skutočnosť, že tieto generátory nie sú trénované pomocou žiadnej výstupnej distribúcie, je významným rozdielom medzi modelmi autoenkodéra a inými modelmi.
Existujú dva spôsoby, ako rozložiť stratovú funkciu modelu:
- schopnosť kvantifikovať, či diskriminátor presne predvída skutočné údaje
- generované údaje sú presne predpovedané časťou.
Na najlepšom uskutočniteľnom diskriminátore je potom táto stratová funkcia minimalizovaná:
Generické modely možno preto považovať za modely minimalizácie vzdialenosti a ak je diskriminátor ideálny, za minimalizáciu rozdielov medzi skutočnou a produkovanou distribúciou.
V skutočnosti môžu byť použité rôzne odchýlky a výsledkom sú rôzne tréningové metódy GAN.
Je náročné sledovať dynamiku učenia, ktorá zahŕňa kompromis medzi generátorom a diskriminátorom, napriek tomu, že je jednoduché upraviť stratovú funkciu GAN.
Neexistujú ani záruky, že učenie sa bude zbližovať. V dôsledku toho je trénovanie modelu GAN ťažké, pretože je typické naraziť na problémy, ako sú miznúce gradienty a kolaps režimu (keď vo vygenerovaných vzorkách nie je žiadna diverzita).
Teraz je čas na Diffusion Models
Problém s konvergenciou školení GAN bol vyriešený vývojom modelov difúzie.
Tieto modely predpokladajú, že proces difúzie je ekvivalentný strate informácií spôsobenej progresívnou interferenciou šumu (gaussovský šum sa pridáva v každom časovom kroku procesu difúzie).
Účelom takéhoto modelu je určiť, ako šum ovplyvňuje informácie prítomné vo vzorke, alebo, inak povedané, koľko informácií sa stratí v dôsledku difúzie.
Ak to model dokáže zistiť, mal by byť schopný získať pôvodnú vzorku a vrátiť späť stratu informácií, ku ktorej došlo.
Toto je dosiahnuté prostredníctvom odšumovacieho difúzneho modelu. Proces priamej difúzie a proces spätnej difúzie tvoria dva kroky.
Proces doprednej difúzie zahŕňa postupné pridávanie Gaussovho šumu (tj proces difúzie), kým nie sú dáta úplne kontaminované šumom.
Neurónová sieť je následne trénovaná pomocou metódy reverznej difúzie, aby sa naučili pravdepodobnosti podmieneného rozloženia na zvrátenie šumu.
Tu môžete pochopiť viac o difúzny model.
Difúzny model vs GAN
Podobne ako difúzny model, GAN vytvárajú obrázky zo šumu.
Model je tvorený generátorovou neurónovou sieťou, ktorá začína šumom nejakej informatívnej podmieňujúcej premennej, ako je označenie triedy alebo kódovanie textu.
Výsledkom by potom malo byť niečo, čo pripomína realistický obraz.
Na vytváranie fotorealistických a verných obrazových generácií používame siete GAN. Pomocou difúznych modelov sa vytvárajú ešte realistickejšie vizuály ako GAN.
Difúzne modely sú istým spôsobom presnejšie v popise faktov.
Zatiaľ čo GAN berie ako vstup náhodný šum alebo premennú podmieňovania triedy a vydáva realistickú vzorku, modely difúzie sú často pomalšie, iteratívne a vyžadujú si oveľa viac vedenia.
Pri opakovanom odšumovaní s cieľom vrátiť sa zo šumu k pôvodnému obrázku nie je veľa miesta na chyby.
Každý kontrolný bod prechádza počas fázy vytvárania a každým krokom môže obrázok získavať viac a viac informácií.
záver
Na záver, kvôli niekoľkým významným výskumom, ktoré boli publikované len v rokoch 2020 a 2021, môžu teraz modely difúzie prekonať GAN z hľadiska syntézy obrazu.
Tento rok bol spustený OpenAI DALL-E2, model výroby obrazu, ktorý umožňuje odborníkom používať modely difúzie.
Hoci sú siete GAN špičkové, ich obmedzenia sťažujú ich škálovanie a používanie v nových kontextoch.
S cieľom dosiahnuť kvalitu vzoriek podobnú GAN pomocou modelov založených na pravdepodobnosti sa do toho vložilo veľa práce.
Nechaj odpoveď