Oor die algemeen hanteer diep generatiewe modelle soos GAN's, VAE's en outoregressiewe modelle beeldsinteseprobleme.
Gegewe die hoë gehalte van die data wat hulle skep, het generatiewe teenstandersnetwerke (GAN's) die afgelope jare baie aandag gekry.
Diffusiemodelle is nog 'n fassinerende studieveld wat homself gevestig het. Die velde van beeld-, video- en stemgenerering het albei uitgebreide gebruik vir albei gevind.
Diffusiemodelle vs. GAN's: wat lewer beter resultate? Dit het natuurlik tot 'n voortdurende bespreking gelei.
In die rekenaarargitektuur bekend as die GAN, twee neurale netwerke word teen mekaar geveg om nuut gesintetiseerde gevalle van data te produseer wat vir egte data kan slaag.
Diffusiemodelle word al hoe meer gewild aangesien hulle opleidingstabiliteit en hoë resultate bied vir die vervaardiging van musiek en grafika.
Hierdie artikel sal die verspreidingsmodel en GAN's in detail deurgaan, asook hoe hulle van mekaar verskil en 'n paar ander dinge.
So, wat is generatiewe teëstanderige netwerke?
Ten einde nuwe, kunsmatige gevalle van data te skep wat met egte data verwar kan word, gebruik generatiewe teenstandersnetwerke (GAN's) twee neurale netwerke en sit hulle teen mekaar (dus die "teenstandige" in die naam).
Hulle word wyd gebruik vir spraak-, video- en prentskepping.
GAN se doelwit is om voorheen onontdekte data uit 'n spesifieke datastel te skep. Om 'n model van die werklike, ongeïdentifiseerde onderliggende dataverspreiding uit die monsters af te lei, doen dit.
Alternatiewelik is hierdie netwerke implisiete modelle wat poog om 'n spesifieke statistiese verspreiding te leer.
Die metode wat GAN gebruik het om te ontdek hoe om hierdie doel te bereik, was nuut. Trouens, hulle produseer data deur 'n tweespeler-speletjie te speel om 'n implisiete model te ontwikkel.
Die volgende beskryf die struktuur:
- 'n Diskrimineerder wat die vermoë kry om te onderskei tussen outentieke en vals data
- 'n kragopwekker wat nuwe maniere optel om data te skep, kan die diskrimineerder mislei.
Die diskrimineerder stel hom voor as 'n neurale netwerk. Daarom moet die kragopwekker 'n prentjie van hoë gehalte skep om dit te mislei.
Die feit dat hierdie kragopwekkers nie opgelei word deur enige uitsetverspreiding te gebruik nie, is 'n beduidende onderskeid tussen outo-enkodeerdermodelle en ander modelle.
Daar is twee maniere om die verliesfunksie van die model te ontbind:
- die vermoë om te kwantifiseer as die diskrimineerder werklike data akkuraat voorsien
- gegenereerde data word akkuraat deur 'n gedeelte voorspel.
Op die beste haalbare diskrimineerder word hierdie verliesfunksie dan geminimaliseer:
Generiese modelle kan dus beskou word as afstandsminimaliseringsmodelle en, indien die diskrimineerder ideaal is, as divergensie-minimalisering tussen die ware en geproduseerde verspreiding.
In werklikheid kan verskillende divergensies gebruik word en lei tot verskeie GAN-opleidingsmetodes.
Die leerdinamika, wat 'n afweging tussen die kragopwekker en die diskrimineerder insluit, is uitdagend om te volg, al is dit eenvoudig om die verliesfunksie van GAN'e aan te pas.
Daar is ook geen versekering dat leer sal konvergeer nie. As gevolg hiervan is die opleiding van 'n GAN-model moeilik, aangesien dit tipies is om probleme soos verdwynende gradiënte en modus-ineenstorting teë te kom (wanneer daar geen diversiteit in die gegenereerde monsters is nie).
Nou is dit tyd vir Diffusion Models
Die probleem met GAN'e se opleidingskonvergensie is aangespreek deur die ontwikkeling van diffusiemodelle.
Hierdie modelle neem aan dat 'n diffusieproses gelykstaande is aan inligtingsverlies wat veroorsaak word deur geraas se progressiewe interferensie ('n Gaussiese geraas word bygevoeg by elke tydstap van die diffusieproses).
Die doel van so 'n model is om te bepaal hoe geraas die inligting wat in die monster teenwoordig is, beïnvloed, of, anders gestel, hoeveel inligting verlore gaan as gevolg van diffusie.
As 'n model dit kan uitvind, behoort dit die oorspronklike monster te kan haal en die inligtingsverlies wat plaasgevind het, ongedaan te maak.
Dit word bewerkstellig deur 'n denoiserende diffusiemodel. 'n Voorwaartse diffusieproses en 'n omgekeerde diffusieproses maak die twee stappe uit.
Die voorwaartse diffusieproses behels die geleidelike toevoeging van Gaussiese geraas (dws die diffusieproses) totdat die data heeltemal deur geraas besmet is.
Die neurale netwerk word vervolgens opgelei deur die omgekeerde diffusiemetode te gebruik om die voorwaardelike verspreidingswaarskynlikhede te leer om die geraas om te keer.
Hier kan jy meer verstaan oor die diffusie model.
Diffusiemodel vs GAN's
Soos 'n diffusiemodel, produseer GAN's beelde uit geraas.
Die model bestaan uit 'n generator neurale netwerk, wat begin met die geraas van een of ander insiggewende kondisionering veranderlike, soos 'n klas etiket of 'n teks enkodering.
Die resultaat moet dan iets wees wat na 'n realistiese beeld lyk.
Om fotorealistiese en hoëtrou-prentgenerasies te skep, gebruik ons GAN's. Selfs meer realistiese beeldmateriaal as GAN's word geproduseer deur gebruik te maak van diffusiemodelle.
Op 'n manier is diffusiemodelle meer akkuraat in die beskrywing van die feite.
Terwyl 'n GAN ewekansige geraas of 'n klaskondisioneringsveranderlike as inset neem en 'n realistiese steekproef uitstuur, is diffusiemodelle dikwels stadiger, iteratief en benodig baie meer leiding.
Daar is nie veel ruimte vir foute wanneer denoising herhaaldelik toegepas word met die doel om terug te keer na die oorspronklike beeld van die geraas nie.
Elke kontrolepunt word deur die skeppingsfase deurgegaan, en met elke stap kan die prentjie meer en meer inligting kry.
Gevolgtrekking
Ten slotte, As gevolg van min betekenisvolle navorsing wat eers in die 2020's en 2021 gepubliseer is, kan diffusiemodelle nou beter presteer as GAN's in terme van prentjiesintese.
Hierdie jaar het OpenAI bekendgestel DALL-E2, 'n beeldproduksiemodel wat praktisyns toelaat om diffusiemodelle te gebruik.
Alhoewel GAN's voorpunt is, maak hul beperkings dit uitdagend om dit te skaal en in nuwe kontekste te gebruik.
Om GAN-agtige steekproefkwaliteit te bereik deur gebruik te maak van waarskynlikheid-gebaseerde modelle, is baie werk daaraan gesit.
Lewer Kommentaar