Inhoudsopgave[Zich verstoppen][Laten zien]
Over het algemeen behandelen diepe generatieve modellen zoals GAN's, VAE's en autoregressieve modellen problemen met beeldsynthese.
Gezien de hoge kwaliteit van de data die ze creëren, hebben generatieve adversariële netwerken (GAN's) de afgelopen jaren veel aandacht gekregen.
Diffusiemodellen zijn een ander fascinerend onderzoeksgebied dat zichzelf heeft gevestigd. De velden van beeld-, video- en spraakgeneratie zijn beide uitgebreid gebruikt voor beide.
Diffusiemodellen versus GAN's: wat levert betere resultaten op? Uiteraard heeft dit geleid tot een voortdurende discussie.
In de computationele architectuur die bekend staat als de GAN, zijn twee neurale netwerken worden tegen elkaar gevochten om nieuwe gesynthetiseerde exemplaren van gegevens te produceren die kunnen doorgaan voor echte gegevens.
Diffusiemodellen worden steeds populairder omdat ze trainingsstabiliteit en hoge resultaten bieden voor het produceren van muziek en afbeeldingen.
Dit artikel gaat in detail in op het diffusiemodel en GAN's, evenals hoe ze van elkaar verschillen en een paar andere dingen.
Dus, wat zijn generatieve vijandige netwerken?
Om nieuwe, kunstmatige gegevens te creëren die kunnen worden aangezien voor echte gegevens, gebruiken generatieve adversarial-netwerken (GAN's) twee neurale netwerken en zetten ze tegen elkaar op (dus de 'adversarial' in de naam).
Ze worden op grote schaal gebruikt voor het maken van spraak, video en afbeeldingen.
Het doel van GAN is om eerder onontdekte data te creëren uit een specifieke dataset. Dit gebeurt door te proberen een model af te leiden van de feitelijke, niet-geïdentificeerde onderliggende gegevensdistributie uit de steekproeven.
Anders gezegd, deze netwerken zijn impliciete modellen die proberen een specifieke statistische verdeling te leren.
De methode die GAN gebruikte om te ontdekken hoe dit doel te bereiken was nieuw. In feite produceren ze gegevens door een spel voor twee spelers te spelen om een impliciet model te ontwikkelen.
Het volgende beschrijft de structuur:
- een discriminator die de mogelijkheid krijgt om onderscheid te maken tussen authentieke en nepgegevens
- een generator die nieuwe manieren oppikt om gegevens te creëren, kan de discriminator misleiden.
De discriminator doet zich voor als een neuraal netwerk. Daarom moet de generator een afbeelding van hoge kwaliteit maken om hem te misleiden.
Het feit dat deze generatoren niet zijn getraind met behulp van een uitvoerdistributie, is een belangrijk onderscheid tussen autoencoder-modellen en andere modellen.
Er zijn twee manieren om de verliesfunctie van het model te ontleden:
- het vermogen om te kwantificeren of de discriminator nauwkeurig echte gegevens voorziet
- gegenereerde gegevens worden nauwkeurig voorspeld door een deel.
Op de best haalbare discriminator wordt deze verliesfunctie dan geminimaliseerd:
Generieke modellen kunnen daarom worden gezien als afstandsminimalisatiemodellen en, als de discriminator ideaal is, als divergentieminimalisatie tussen de werkelijke en geproduceerde verdeling.
In werkelijkheid kunnen verschillende verschillen worden gebruikt en resulteren in verschillende GAN-trainingsmethoden.
De leerdynamiek, die een afweging tussen de generator en de discriminator omvat, is een uitdaging om te volgen, ondanks dat het eenvoudig is om de verliesfunctie van GAN's aan te passen.
Er zijn ook geen garanties dat leren zal convergeren. Als gevolg hiervan is het trainen van een GAN-model moeilijk, omdat het typisch is om problemen tegen te komen zoals verdwijnende gradiënten en modusinstorting (wanneer er geen diversiteit is in de gegenereerde monsters).
Nu is het tijd voor Diffusion Models
Het probleem met de opleidingsconvergentie van GAN's is aangepakt door de ontwikkeling van diffusiemodellen.
Deze modellen gaan ervan uit dat een diffusieproces gelijk staat aan informatieverlies veroorzaakt door de progressieve interferentie van ruis (bij elke tijdstap van het diffusieproces wordt een Gaussische ruis toegevoegd).
Het doel van een dergelijk model is om te bepalen hoe ruis de informatie in het monster beïnvloedt, of anders gezegd, hoeveel informatie verloren gaat door diffusie.
Als een model dit kan achterhalen, zou het in staat moeten zijn om het originele monster terug te halen en het opgetreden informatieverlies ongedaan te maken.
Dit wordt bereikt door een denoising diffusiemodel. Een voorwaarts diffusieproces en een omgekeerd diffusieproces vormen de twee stappen.
Het voorwaartse diffusieproces omvat het geleidelijk toevoegen van Gaussiaanse ruis (dwz het diffusieproces) totdat de gegevens volledig zijn verontreinigd door ruis.
Het neurale netwerk wordt vervolgens getraind met behulp van de omgekeerde diffusiemethode om de voorwaardelijke distributiekansen te leren om de ruis om te keren.
Hier kunt u meer begrijpen over de diffusiemodel.
Diffusiemodel versus GAN's
Net als een diffusiemodel produceren GAN's beelden van ruis.
Het model bestaat uit een neuraal generatornetwerk, dat begint met de ruis van een informatieve conditioneringsvariabele, zoals een klasselabel of een tekstcodering.
Het resultaat moet dan iets zijn dat lijkt op een realistisch beeld.
Om fotorealistische en high-fidelity beeldgeneraties te creëren, gebruiken we GAN's. Nog realistischere beelden dan GAN's worden geproduceerd met behulp van diffusiemodellen.
In zekere zin zijn diffusiemodellen nauwkeuriger in het beschrijven van de feiten.
Terwijl een GAN willekeurige ruis of een klasseconditioneringsvariabele als invoer gebruikt en een realistische steekproef uitvoert, zijn diffusiemodellen vaak langzamer, iteratief en hebben ze veel meer begeleiding nodig.
Er is niet veel ruimte voor fouten wanneer ruisonderdrukking herhaaldelijk wordt toegepast met als doel om vanuit de ruis terug te keren naar het oorspronkelijke beeld.
Elk controlepunt wordt tijdens de creatiefase doorlopen en bij elke stap kan de afbeelding meer en meer informatie krijgen.
Conclusie
Concluderend: vanwege weinig significant onderzoek dat pas in de jaren 2020 en 2021 is gepubliceerd, kunnen diffusiemodellen nu beter presteren dan GAN's in termen van beeldsynthese.
Dit jaar is OpenAI gelanceerd DALL-E2, een beeldproductiemodel waarmee beoefenaars diffusiemodellen kunnen gebruiken.
Hoewel GAN's hypermodern zijn, maken hun beperkingen het een uitdaging om ze op te schalen en in nieuwe contexten te gebruiken.
Om GAN-achtige steekproefkwaliteit te bereiken met behulp van op waarschijnlijkheid gebaseerde modellen, is er veel werk in gestoken.
Laat een reactie achter