Indholdsfortegnelse[Skjule][At vise]
Generelt håndterer dybe generative modeller som GAN'er, VAE'er og autoregressive modeller billedsynteseproblemer.
På grund af den høje kvalitet af de data, de skaber, har generative adversarial networks (GAN'er) fået meget opmærksomhed i de seneste år.
Diffusionsmodeller er et andet fascinerende studieområde, der har etableret sig. Områderne billed-, video- og stemmegenerering har begge fundet udstrakt brug for dem begge.
Diffusionsmodeller vs. GAN'er: Hvilket giver bedre resultater? Det har naturligvis ført til en løbende diskussion.
I den beregningsmæssige arkitektur kendt som GAN, to neurale netværk kæmpes mod hinanden for at producere nysyntetiserede forekomster af data, der kan overføres til ægte data.
Diffusionsmodeller bliver mere og mere populære, da de giver træningsstabilitet og høje resultater til produktion af musik og grafik.
Denne artikel vil gennemgå diffusionsmodellen og GAN'er i detaljer, samt hvordan de adskiller sig fra hinanden og et par andre ting.
Så hvad er Generative Adversarial Networks?
For at skabe nye, kunstige forekomster af data, der kan forveksles med ægte data, anvender generative adversarial networks (GAN'er) to neurale netværk og sætter dem op mod hinanden (således "adversarial" i navnet).
De bruges i vid udstrækning til tale-, video- og billedoprettelse.
GANs mål er at skabe tidligere uopdagede data fra et specifikt datasæt. Forsøg på at udlede en model af den faktiske, uidentificerede underliggende datafordeling fra prøverne, gør dette.
Alternativt sagt er disse netværk implicitte modeller, der forsøger at lære en specifik statistisk fordeling.
Metoden GAN brugte til at opdage, hvordan man opnår dette mål, var ny. Faktisk producerer de data ved at spille et to-spiller spil for at udvikle en implicit model.
Følgende beskriver strukturen:
- en diskriminator, der får muligheden for at skelne mellem autentiske og falske data
- en generator, der opfanger nye måder at skabe data på, kan snyde diskriminatoren.
Diskriminatoren optræder som et neuralt netværk. Derfor skal generatoren skabe et billede med høj kvalitet for at snyde det.
Den kendsgerning, at disse generatorer ikke trænes ved at bruge nogen outputdistribution, er en væsentlig skelnen mellem autoencoder-modeller og andre modeller.
Der er to måder at dekomponere modellens tabsfunktion:
- evnen til at kvantificere, hvis diskriminatoren nøjagtigt forudser reelle data
- genererede data forudsiges nøjagtigt af en del.
På den bedst mulige diskriminator minimeres denne tabsfunktion:
Generiske modeller kan derfor opfattes som afstandsminimeringsmodeller og, hvis diskriminatoren er ideel, som divergensminimering mellem den sande og producerede distribution.
I virkeligheden kan forskellige divergenser anvendes og resultere i forskellige GAN-træningsmetoder.
Læringsdynamikken, som inkluderer en afvejning mellem generatoren og diskriminatoren, er udfordrende at følge, på trods af at det er enkelt at justere tabsfunktionen af GAN'er.
Der er heller ingen forsikringer om, at læring vil konvergere. Som et resultat er det vanskeligt at træne en GAN-model, da det er typisk at støde på problemer som forsvindende gradienter og tilstandssammenbrud (når der ikke er nogen diversitet i de genererede prøver).
Nu er det tid til Diffusion Models
Problemet med GAN'ers træningskonvergens er blevet løst gennem udviklingen af diffusionsmodeller.
Disse modeller antager, at en diffusionsproces svarer til informationstab forårsaget af støjs progressive interferens (en gaussisk støj tilføjes ved hvert tidstrin af diffusionsprocessen).
Formålet med en sådan model er at bestemme, hvordan støj påvirker informationen i prøven, eller, for at sige det på en anden måde, hvor meget information der går tabt på grund af diffusion.
Hvis en model kan finde ud af dette, burde den være i stand til at hente den originale prøve og fortryde det opståede informationstab.
Dette opnås gennem en denoising diffusionsmodel. En fremadgående diffusionsproces og en omvendt diffusionsproces udgør de to trin.
Den fremadrettede diffusionsprocessen involverer gradvis tilføjelse af Gaussisk støj (dvs. diffusionsprocessen), indtil dataene er fuldstændig forurenet af støj.
Det neurale netværk trænes efterfølgende ved at bruge den omvendte diffusionsmetode for at lære de betingede distributionssandsynligheder for at vende støjen.
Her kan du forstå mere om diffusionsmodel.
Diffusionsmodel vs GAN'er
Som en diffusionsmodel producerer GAN'er billeder fra støj.
Modellen består af et generator-neuralt netværk, som begynder med støjen fra en informativ konditioneringsvariabel, såsom en klasseetiket eller en tekstkodning.
Resultatet skulle så være noget, der minder om et realistisk billede.
For at skabe fotorealistiske og realistiske billedgenerationer anvender vi GAN'er. Endnu mere realistiske billeder end GAN'er produceres ved hjælp af diffusionsmodeller.
På en måde er diffusionsmodeller mere præcise til at beskrive fakta.
Mens et GAN som input tager tilfældig støj eller en klassekonditioneringsvariabel og udsender en realistisk prøve, er diffusionsmodeller ofte langsommere, iterative og har brug for meget mere vejledning.
Der er ikke meget plads til fejl, når denoising anvendes gentagne gange med det formål at vende tilbage til det originale billede fra støjen.
Hvert kontrolpunkt passeres igennem hele oprettelsesfasen, og for hvert trin kan billedet få mere og mere information.
Konklusion
Som konklusion: På grund af få væsentlige undersøgelser, der først blev offentliggjort i 2020'erne og 2021, kan diffusionsmodeller nu overgå GAN'er med hensyn til billedsyntese.
I år lancerede OpenAI DALL-E2, en billedproduktionsmodel, der gør det muligt for praktikere at anvende diffusionsmodeller.
Selvom GAN'er er banebrydende, gør deres begrænsninger det udfordrende at skalere og bruge dem i nye sammenhænge.
For at opnå GAN-lignende prøvekvalitet ved brug af sandsynlighedsbaserede modeller, er der lagt meget arbejde i det.
Giv en kommentar