Inhaltsverzeechnes[Verstoppen][Show]
Am Allgemengen, déif generativ Modeller wéi GANs, VAEs, an autoregressive Modeller handhaben Bildsyntheseproblemer.
Wéinst der héijer Qualitéit vun den Donnéeën, déi se kreéieren, hunn generativ adversarial Netzwierker (GANs) an de leschte Jore vill Opmierksamkeet kritt.
Diffusiounsmodeller sinn en anert faszinante Studieberäich dat sech etabléiert huet. D'Felder vum Bild, Video a Stëmm Generatioun hu béid extensiv Notzung fir béid fonnt.
Diffusioun Modeller vs GANs: Wat produzéiert Besser Resultater? Natierlech huet dat zu enger laanger Diskussioun gefouert.
An der computational Architektur bekannt als GAN, zwee neural Netzwierker gi géintenee gekämpft fir nei synthetiséiert Instanzen vun Daten ze produzéieren déi fir echt Daten passéiere kënnen.
Diffusiounsmodeller ginn ëmmer méi populär well se Trainingsstabilitéit an héich Resultater ubidden fir Musek a Grafiken ze produzéieren.
Dësen Artikel wäert den Diffusiounsmodell a GANs am Detail duerchgoen, souwéi wéi se vuneneen an e puer aner Saachen ënnerscheeden.
Also, wat sinn Generative Adversarial Netzwierker?
Fir nei, kënschtlech Instanzen vun Donnéeën ze kreéieren déi mat echten Donnéeë verwiesselt kënne ginn, generativ adversarial Netzwierker (GANs) benotzen zwee neural Netzwierker a stellen se géinteneen (also de "adversarial" am Numm).
Si gi extensiv benotzt fir Ried, Video a Bildschafung.
Dem GAN säin Zil ass et virdru onentdeckt Donnéeën aus engem spezifeschen Datesaz ze kreéieren. Versuch e Modell vun der aktueller, onidentifizéierter Basisdatenverdeelung aus de Proben ofzeschléissen, mécht dëst.
Alternativ gesot, dës Netzwierker sinn implizit Modeller déi probéieren eng spezifesch statistesch Verdeelung ze léieren.
D'Method GAN benotzt fir ze entdecken wéi dëst Zil z'erreechen war nei. Tatsächlech produzéiere se Daten andeems se en zwee-Spiller Spill spillen fir en implizit Modell z'entwéckelen.
Déi folgend beschreift d'Struktur:
- en Diskriminator deen d'Fäegkeet kritt tëscht authenteschen a gefälschten Donnéeën z'ënnerscheeden
- e Generator deen nei Weeër ophëlt fir Daten ze kreéieren kann den Diskriminator tricken.
Den Diskriminator poséiert als en neuralt Netzwierk. Dofir muss de Generator e Bild mat héijer Qualitéit erstellen fir et ze tricken.
D'Tatsaach datt dës Generatoren net mat all Ausgangsverdeelung trainéiert ginn ass e wesentlechen Ënnerscheed tëscht Autoencoder Modeller an aner Modeller.
Et ginn zwou Weeër fir d'Verloschtfunktioun vum Modell ze zerstéieren:
- d'Fäegkeet ze quantifizéieren wann den Diskriminator richteg Daten virausgesot
- generéiert Donnéeën präziist vun engem Deel virausgesot.
Op de bescht machbaren Diskriminator gëtt dës Verloschtfunktioun dann miniméiert:
Generesch Modeller kënnen also als Distanzminiméierungsmodeller geduecht ginn an, wann den Diskriminator ideal ass, als Divergenzminiméierung tëscht der richteger a produzéierter Verdeelung.
A Wierklechkeet kënne verschidden Divergenzen agestallt ginn a verschidde GAN Trainingsmethoden resultéieren.
D'Léierdynamik, déi en Ofwiesselung tëscht dem Generator an dem Diskriminator enthält, sinn Erausfuerderung ze verfollegen, obwuel et einfach ass d'Verloschtfunktioun vu GANs unzepassen.
Et gëtt och keng Assurancen datt d'Léieren konvergéieren. Als Resultat ass d'Ausbildung vun engem GAN Modell schwéier, well et typesch ass iwwer Probleemer ze lafen wéi Verschwannen Gradienten a Modus Zesummebroch (wann et keng Diversitéit an de generéierte Proben ass).
Elo ass et Zäit fir Diffusion Models
De Problem mat GAN Training Konvergenz gouf duerch d'Entwécklung vun Diffusioun Modeller adresséiert.
Dës Modeller huelen un datt en Diffusiounsprozess gläichwäerteg ass mam Informatiounsverloscht, deen duerch d'progressiv Interferenz vum Kaméidi gefouert gëtt (e gaussesche Geräischer gëtt zu all Zäitschrëtt vum Diffusiounsprozess bäigefüügt).
Den Zweck vun esou engem Modell ass ze bestëmmen wéi Kaméidi d'Informatioun, déi an der Probe präsent ass, beaflosst, oder, anescht auszedrécken, wéi vill Informatioun duerch Diffusioun verluer geet.
Wann e Modell dëst erausfanne kann, sollt et fäeg sinn d'Original Probe ze recuperéieren an den Informatiounsverloscht deen opgetrueden ass zréckzekréien.
Dëst gëtt duerch en denoising Diffusiounsmodell erreecht. E Forward Diffusiounsprozess an e Reverse Diffusiounsprozess maachen déi zwee Schrëtt aus.
De Forward Diffusiounsprozess involvéiert graduell Gaussesche Geräischer (dh den Diffusiounsprozess) bäizefügen bis d'Donnéeën komplett vu Kaméidi kontaminéiert sinn.
Den neurale Netzwierk gëtt duerno mat der ëmgedréint Diffusiounsmethod trainéiert fir d'bedingte Verdeelungswahrscheinlechkeeten ze léieren fir de Kaméidi ëmgedréint ze ginn.
Hei kënnt Dir méi iwwer de verstoen Diffusioun Modell.
Diffusioun Modell Vs GANs
Wéi en Diffusiounsmodell produzéiere GAN Biller vu Kaméidi.
De Modell besteet aus engem Generator neuralt Netzwierk, dat mam Kaméidi vun enger informativer Konditiounsvariabel ufänkt, sou wéi e Klasseetikett oder eng Textkodéierung.
D'Resultat soll dann eppes sinn, wat e realistescht Bild ähnelt.
Fir photorealistesch an High-Fidelity Bildgeneratiounen ze kreéieren, benotze mir GANs. Nach méi realistesch Visuals wéi GANs gi mat Diffusiounsmodeller produzéiert.
Op eng Manéier sinn Diffusiounsmodeller méi korrekt fir d'Fakten ze beschreiwen.
Wärend e GAN als Input zoufälleg Kaméidi oder eng Klassekonditiounsvariabel hëlt an eng realistesch Probe ausgëtt, sinn Diffusiounsmodeller dacks méi lues, iterativ a brauche vill méi Leedung.
Et gëtt net vill Plaz fir Feeler wann denoising ëmmer erëm applizéiert gëtt mam Zil zréck op dat ursprénglecht Bild vum Kaméidi zréckzekommen.
All Kontrollpunkt gëtt duerch d'ganz Kreatiounsphase duerchgefouert, a mat all Schrëtt kann d'Bild ëmmer méi Informatioun kréien.
Konklusioun
Als Conclusioun, Wéinst wéineg bedeitend Fuerschung, déi nëmmen an den 2020er an 2021 publizéiert gouf, kënnen Diffusiounsmodeller elo GANs a punkto Bildsynthese besser maachen.
Dëst Joer, OpenAI lancéiert DALL-E2, e Bildproduktiounsmodell deen d'Praktiker erlaabt Diffusiounsmodeller ze benotzen.
Och wann GANs modernste sinn, maachen hir Aschränkungen et Erausfuerderung fir se ze skaléieren an an neie Kontexter ze benotzen.
Fir GAN-ähnlech Probequalitéit mat Wahrscheinlechkeet-baséiert Modeller z'erreechen, ass vill Aarbecht dran gesat ginn.
Hannerlooss eng Äntwert