Innehållsförteckning[Dölj][Visa]
I allmänhet hanterar djupgenerativa modeller som GAN, VAE och autoregressiva modeller bildsyntesproblem.
Med tanke på den höga kvaliteten på data de skapar har generativa motstridiga nätverk (GAN) fått mycket uppmärksamhet de senaste åren.
Diffusionsmodeller är ett annat fascinerande studieområde som har etablerat sig. Områdena bild, video och röstgenerering har båda funnit omfattande användning för dem båda.
Diffusionsmodeller kontra GAN: Vilket ger bättre resultat? Detta har naturligtvis lett till en pågående diskussion.
I den beräkningsarkitektur som kallas GAN, två neurala nätverk kämpas mot varandra för att producera nysyntetiserade instanser av data som kan passera för äkta data.
Diffusionsmodeller blir mer och mer populära eftersom de ger träningsstabilitet och höga resultat för att producera musik och grafik.
Den här artikeln kommer att gå igenom diffusionsmodellen och GAN i detalj, samt hur de skiljer sig från varandra och några andra saker.
Så, vad är generativa kontradiktoriska nätverk?
För att skapa nya, artificiella instanser av data som kan misstas för äkta data, använder generativa motstridiga nätverk (GAN) två neurala nätverk och ställer dem mot varandra (därav det "motstridiga" i namnet).
De används i stor utsträckning för att skapa tal, video och bild.
GAN:s mål är att skapa tidigare oupptäckt data från en specifik datauppsättning. Ett försök att sluta sig till en modell av den faktiska, oidentifierade underliggande datadistributionen från proverna, gör detta.
Alternativt sagt är dessa nätverk implicita modeller som försöker lära sig en specifik statistisk fördelning.
Metoden som GAN använde för att upptäcka hur man uppnår detta mål var ny. Faktum är att de producerar data genom att spela ett spel för två spelare för att utveckla en implicit modell.
Följande beskriver strukturen:
- en Diskriminator som får förmågan att skilja mellan autentisk och falsk data
- en generator som plockar upp nya sätt att skapa data kan lura diskriminatorn.
Diskriminatorn poserar som ett neuralt nätverk. Därför måste generatorn skapa en bild med hög kvalitet för att lura den.
Det faktum att dessa generatorer inte tränas med någon utmatningsdistribution är en betydande skillnad mellan autoencoder-modeller och andra modeller.
Det finns två sätt att dekomponera modellens förlustfunktion:
- förmågan att kvantifiera om diskriminatorn korrekt förutser verkliga data
- genererad data förutsägs korrekt av en del.
På den bästa möjliga diskriminatorn minimeras sedan denna förlustfunktion:
Generiska modeller kan därför ses som avståndsminimeringsmodeller och, om diskriminatorn är idealisk, som divergensminimering mellan den sanna och producerade distributionen.
I verkligheten kan olika divergenser användas och resultera i olika GAN-träningsmetoder.
Inlärningsdynamiken, som inkluderar en avvägning mellan generatorn och diskriminatorn, är utmanande att följa, trots att det är enkelt att justera förlustfunktionen för GAN:er.
Det finns inte heller några garantier för att lärande kommer att konvergera. Som ett resultat är det svårt att träna en GAN-modell, eftersom det är typiskt att stöta på problem som försvinnande gradienter och lägeskollaps (när det inte finns någon mångfald i de genererade proverna).
Nu är det dags för Diffusion Models
Problemet med GANs träningskonvergens har åtgärdats genom utvecklingen av diffusionsmodeller.
Dessa modeller antar att en diffusionsprocess är likvärdig med informationsförlust orsakad av brusets progressiva interferens (ett gaussiskt brus läggs till vid varje tidssteg av diffusionsprocessen).
Syftet med en sådan modell är att fastställa hur brus påverkar informationen som finns i provet, eller, för att uttrycka det på ett annat sätt, hur mycket information som går förlorad på grund av diffusion.
Om en modell kan ta reda på detta, borde den kunna hämta originalprovet och ångra informationsförlusten som inträffade.
Detta åstadkoms genom en denoising diffusionsmodell. En framåtriktad diffusionsprocess och en omvänd diffusionsprocess utgör de två stegen.
Den framåtriktade diffusionsprocessen innebär att man gradvis adderar gaussiskt brus (dvs diffusionsprocessen) tills data är fullständigt förorenad av brus.
Det neurala nätverket tränas därefter med användning av den omvända diffusionsmetoden för att lära sig de villkorade fördelningssannolikheterna för att vända bruset.
Här kan du förstå mer om diffusionsmodell.
Diffusionsmodell kontra GAN
Som en diffusionsmodell producerar GAN bilder från brus.
Modellen är uppbyggd av ett generator-neuralt nätverk, som börjar med bruset från någon informativ konditioneringsvariabel, såsom en klassetikett eller en textkodning.
Resultatet ska då bli något som liknar en realistisk bild.
För att skapa fotorealistiska och högtrogna bildgenerationer använder vi GAN. Ännu mer realistiska bilder än GAN produceras med hjälp av diffusionsmodeller.
På ett sätt är diffusionsmodeller mer exakta när det gäller att beskriva fakta.
Medan ett GAN tar slumpmässigt brus eller en klasskonditioneringsvariabel som ingång och ger ett realistiskt urval, är diffusionsmodeller ofta långsammare, iterativa och behöver mycket mer vägledning.
Det finns inte mycket utrymme för fel när bruset används upprepade gånger med målet att återgå till originalbilden från bruset.
Varje kontrollpunkt passeras genom hela skapelseskedet, och för varje steg kan bilden få mer och mer information.
Slutsats
Sammanfattningsvis, på grund av få betydande forskning som endast publicerades under 2020-talet och 2021, kan diffusionsmodeller nu överträffa GAN när det gäller bildsyntes.
I år lanserades OpenAI DALL-E2, en bildproduktionsmodell som tillåter utövare att använda diffusionsmodeller.
Även om GAN är banbrytande, gör deras begränsningar det utmanande att skala och använda dem i nya sammanhang.
För att uppnå GAN-liknande provkvalitet med hjälp av sannolikhetsbaserade modeller har mycket arbete lagts på det.
Kommentera uppropet