Obecně platí, že hluboké generativní modely jako GAN, VAE a autoregresivní modely řeší problémy se syntézou obrazu.
Vzhledem k vysoké kvalitě dat, která vytvářejí, se generativním adversariálním sítím (GAN) v posledních letech věnuje velká pozornost.
Difúzní modely jsou další fascinující studijní obor, který se prosadil. Oba obory generování obrazu, videa a hlasu našly široké využití.
Difúzní modely vs. GANs: Které přináší lepší výsledky? To přirozeně vedlo k pokračující diskusi.
Ve výpočetní architektuře známé jako GAN dva neuronové sítě bojují proti sobě, aby vytvořily nově syntetizované instance dat, které mohou sloužit jako pravá data.
Difúzní modely jsou stále populárnější, protože poskytují stabilitu tréninku a vysoké výsledky pro produkci hudby a grafiky.
Tento článek podrobně projde modelem difúze a GAN, stejně jako tím, jak se navzájem liší a několika dalšími věcmi.
Co jsou tedy generativní adversariální sítě?
Za účelem vytvoření nových umělých instancí dat, které by mohly být zaměněny za pravá data, využívají generativní adversariální sítě (GAN) dvě neuronové sítě a staví je proti sobě (takže „protivník“ v názvu).
Jsou široce využívány pro tvorbu řeči, videa a obrázků.
Cílem GAN je vytvořit dříve neobjevená data ze specifické datové sady. Pokus o odvození modelu skutečného, neidentifikovaného základního rozložení dat ze vzorků to dělá.
Alternativně řečeno, tyto sítě jsou implicitní modely, které se pokoušejí naučit se specifické statistické rozložení.
Metoda GAN použitá k objevu, jak tohoto cíle dosáhnout, byla nová. Ve skutečnosti produkují data hraním hry pro dva hráče, aby vyvinuli implicitní model.
Níže je popsána struktura:
- Diskriminátor, který získá schopnost rozlišovat mezi autentickými a falešnými daty
- generátor, který vybírá nové způsoby vytváření dat, může oklamat diskriminátor.
Diskriminátor se tváří jako neuronová síť. Generátor proto potřebuje vytvořit obrázek s vysokou kvalitou, aby jej oklamal.
Skutečnost, že tyto generátory nejsou trénovány pomocí žádné výstupní distribuce, je významným rozdílem mezi modely autokodéru a jinými modely.
Existují dva způsoby, jak rozložit ztrátovou funkci modelu:
- schopnost kvantifikovat, zda diskriminátor přesně předvídá skutečná data
- generovaná data jsou přesně předpovězena částí.
Na nejlépe proveditelném diskriminátoru je pak tato ztrátová funkce minimalizována:
Generické modely lze tedy považovat za modely minimalizace vzdálenosti, a pokud je diskriminátor ideální, za minimalizaci odchylky mezi skutečnou a vytvořenou distribucí.
Ve skutečnosti mohou být použity různé odchylky a výsledkem jsou různé tréninkové metody GAN.
Dynamiku učení, která zahrnuje kompromis mezi generátorem a diskriminátorem, je náročné sledovat, přestože je snadné upravit ztrátovou funkci GAN.
Neexistují také žádné záruky, že učení bude konvergovat. V důsledku toho je trénování modelu GAN obtížné, protože je typické narážet na problémy, jako jsou mizející gradienty a kolaps režimu (když ve generovaných vzorcích není žádná diverzita).
Nyní je čas na Diffusion Models
Problém s konvergencí školení GAN byl vyřešen vývojem modelů difúze.
Tyto modely předpokládají, že proces difúze je ekvivalentní ztrátě informace způsobené progresivní interferencí šumu (gaussovský šum se přidává v každém časovém kroku procesu difúze).
Účelem takového modelu je určit, jak šum ovlivňuje informace přítomné ve vzorku, nebo, jinak řečeno, kolik informací se ztrácí v důsledku difúze.
Pokud to model dokáže zjistit, měl by být schopen získat původní vzorek a vrátit zpět ztrátu informací, ke které došlo.
Toho je dosaženo prostřednictvím odšumovacího difúzního modelu. Proces přímé difúze a proces zpětné difúze tvoří dva kroky.
Proces dopředné difúze zahrnuje postupné přidávání Gaussova šumu (tj. proces difúze), dokud nejsou data zcela kontaminována šumem.
Neuronová síť je následně trénována pomocí metody reverzní difúze, aby se naučila pravděpodobnosti podmíněného rozložení pro zvrácení šumu.
Zde můžete pochopit více o difuzní model.
Difúzní model versus GAN
Podobně jako difúzní model produkují GAN obrázky ze šumu.
Model je tvořen generátorovou neuronovou sítí, která začíná šumem nějaké informativní podmíněné proměnné, jako je označení třídy nebo kódování textu.
Výsledkem by pak mělo být něco, co připomíná realistický obraz.
Pro vytváření fotorealistických a vysoce věrných obrazových generací používáme GAN. Ještě realističtější vizuály než GAN jsou vytvářeny pomocí difúzních modelů.
Difúzní modely jsou svým způsobem přesnější v popisu faktů.
Zatímco GAN bere jako vstup náhodný šum nebo proměnnou podmiňování třídy a vydává realistický vzorek, modely difúze jsou často pomalejší, iterativní a potřebují mnohem více vedení.
Při opakovaném použití odšumování s cílem vrátit se ze šumu k původnímu obrazu není mnoho místa pro chyby.
Každý kontrolní bod prochází ve fázi vytváření a s každým krokem může obrázek získávat více a více informací.
Proč investovat do čističky vzduchu?
Závěrem lze říci, že díky několika významným výzkumům, které byly publikovány pouze v letech 2020 a 2021, mohou nyní modely difúze překonat GAN, pokud jde o syntézu obrazu.
Letos byla spuštěna OpenAI DALL-E2, model produkce obrazu, který umožňuje praktikům používat modely difúze.
Přestože jsou GAN špičkové, jejich omezení ztěžují jejich škálování a používání v nových kontextech.
Aby bylo možné dosáhnout kvality vzorků podobné GAN pomocí modelů založených na pravděpodobnosti, bylo do toho vloženo mnoho práce.
Napsat komentář