Inhaltsverzeichnis[Ausblenden][Zeigen]
Im Allgemeinen behandeln tiefe generative Modelle wie GANs, VAEs und autoregressive Modelle Bildsyntheseprobleme.
Aufgrund der hohen Qualität der von ihnen erstellten Daten haben Generative Adversarial Networks (GANs) in den letzten Jahren viel Aufmerksamkeit erhalten.
Diffusionsmodelle sind ein weiteres faszinierendes Forschungsgebiet, das sich etabliert hat. Die Bereiche der Bild-, Video- und Spracherzeugung haben beide umfangreiche Verwendung für beide gefunden.
Diffusionsmodelle vs. GANs: Was führt zu besseren Ergebnissen? Dies hat natürlich zu einer anhaltenden Diskussion geführt.
In der als GAN bekannten Rechenarchitektur zwei Neuronale Netze werden gegeneinander bekämpft, um neu synthetisierte Dateninstanzen zu produzieren, die als echte Daten durchgehen können.
Diffusionsmodelle werden immer beliebter, da sie Trainingsstabilität und hohe Ergebnisse für die Musik- und Grafikproduktion bieten.
Dieser Artikel wird das Diffusionsmodell und die GANs im Detail durchgehen, sowie wie sie sich voneinander unterscheiden und einige andere Dinge.
Was sind Generative Adversarial Networks?
Um neue, künstliche Instanzen von Daten zu schaffen, die mit echten Daten verwechselt werden könnten, verwenden Generative Adversarial Networks (GANs) zwei neuronale Netze und spielen sie gegeneinander aus (daher das „Gegner“ im Namen).
Sie werden umfassend für die Sprach-, Video- und Bilderzeugung verwendet.
Das Ziel von GAN ist es, bisher unentdeckte Daten aus einem bestimmten Datensatz zu erstellen. Der Versuch, aus den Stichproben ein Modell der tatsächlichen, nicht identifizierten zugrunde liegenden Datenverteilung abzuleiten, tut dies.
Anders ausgedrückt sind diese Netzwerke implizite Modelle, die versuchen, eine bestimmte statistische Verteilung zu lernen.
Die Methode, mit der GAN herausfand, wie dieses Ziel erreicht werden kann, war neuartig. Tatsächlich produzieren sie Daten, indem sie ein Spiel für zwei Spieler spielen, um ein implizites Modell zu entwickeln.
Im Folgenden wird der Aufbau beschrieben:
- ein Diskriminator, der die Fähigkeit erlangt, zwischen echten und gefälschten Daten zu unterscheiden
- Ein Generator, der neue Wege zur Datenerstellung aufgreift, kann den Diskriminator austricksen.
Der Diskriminator stellt sich als neuronales Netzwerk dar. Daher muss der Generator ein Bild mit hoher Qualität erstellen, um ihn auszutricksen.
Die Tatsache, dass diese Generatoren nicht unter Verwendung irgendeiner Ausgangsverteilung trainiert werden, ist ein signifikanter Unterschied zwischen Autoencoder-Modellen und anderen Modellen.
Es gibt zwei Möglichkeiten, die Verlustfunktion des Modells zu zerlegen:
- die Fähigkeit zu quantifizieren, ob der Diskriminator reale Daten genau vorhersieht
- generierte Daten werden von einem Teil genau vorhergesagt.
Auf dem bestmöglichen Diskriminator wird diese Verlustfunktion dann minimiert:
Generische Modelle können daher als Distanzminimierungsmodelle und, wenn der Diskriminator ideal ist, als Divergenzminimierung zwischen der wahren und der erzeugten Verteilung angesehen werden.
In der Realität können verschiedene Abweichungen verwendet werden und zu verschiedenen GAN-Trainingsmethoden führen.
Die Lerndynamik, die einen Kompromiss zwischen Generator und Diskriminator beinhaltet, ist schwierig zu verfolgen, obwohl es einfach ist, die Verlustfunktion von GANs anzupassen.
Es gibt auch keine Zusicherungen, dass Lernen konvergiert. Infolgedessen ist das Trainieren eines GAN-Modells schwierig, da es typisch ist, auf Probleme wie verschwindende Gradienten und Modenkollaps zu stoßen (wenn es keine Diversität in den generierten Samples gibt).
Jetzt ist es Zeit für Diffusionsmodelle
Das Problem mit der Trainingskonvergenz von GANs wurde durch die Entwicklung von Diffusionsmodellen angegangen.
Diese Modelle gehen davon aus, dass ein Diffusionsprozess einem Informationsverlust entspricht, der durch die fortschreitende Interferenz von Rauschen verursacht wird (ein Gaußsches Rauschen wird bei jedem Zeitschritt des Diffusionsprozesses hinzugefügt).
Der Zweck eines solchen Modells besteht darin, zu bestimmen, wie sich Rauschen auf die in der Probe vorhandene Information auswirkt, oder anders ausgedrückt, wie viel Information aufgrund von Diffusion verloren geht.
Wenn ein Modell dies herausfinden kann, sollte es in der Lage sein, das Originalmuster abzurufen und den aufgetretenen Informationsverlust rückgängig zu machen.
Dies wird durch ein Denoising-Diffusionsmodell erreicht. Ein Vorwärtsdiffusionsprozess und ein Rückwärtsdiffusionsprozess bilden die zwei Schritte.
Der Vorwärtsdiffusionsprozess umfasst das allmähliche Hinzufügen von Gauß'schem Rauschen (dh der Diffusionsprozess), bis die Daten vollständig durch Rauschen verunreinigt sind.
Das neuronale Netzwerk wird anschließend unter Verwendung des Reverse-Diffusion-Verfahrens trainiert, um die bedingten Verteilungswahrscheinlichkeiten zum Umkehren des Rauschens zu lernen.
Hier erfahren Sie mehr über die Diffusionsmodell.
Diffusionsmodell vs. GANs
Wie ein Diffusionsmodell erzeugen GANs Bilder aus Rauschen.
Das Modell besteht aus einem neuronalen Generatornetzwerk, das mit dem Rauschen einer informativen Konditionierungsvariablen wie einer Klassenbezeichnung oder einer Textcodierung beginnt.
Das Ergebnis sollte dann etwas sein, das einem realistischen Bild ähnelt.
Um fotorealistische und originalgetreue Bildgenerierungen zu erstellen, setzen wir GANs ein. Noch realistischere Bilder als GANs werden unter Verwendung von Diffusionsmodellen erzeugt.
In gewisser Weise sind Diffusionsmodelle bei der Beschreibung der Fakten genauer.
Während ein GAN Zufallsrauschen oder eine Klassenkonditionierungsvariable als Eingabe verwendet und eine realistische Stichprobe ausgibt, sind Diffusionsmodelle oft langsamer, iterativ und benötigen viel mehr Anleitung.
Es gibt nicht viel Raum für Fehler, wenn die Rauschunterdrückung wiederholt angewendet wird, um vom Rauschen zum Originalbild zurückzukehren.
Jeder Kontrollpunkt wird während der gesamten Erstellungsphase durchlaufen, und mit jedem Schritt kann das Bild mehr und mehr Informationen gewinnen.
Zusammenfassung
Zusammenfassend lässt sich sagen, dass aufgrund weniger bedeutender Forschungsergebnisse, die erst in den 2020er und 2021 veröffentlicht wurden, Diffusionsmodelle jetzt GANs in Bezug auf die Bildsynthese übertreffen können.
In diesem Jahr wurde OpenAI eingeführt DALL-E2, ein Bilderzeugungsmodell, das es Praktikern ermöglicht, Diffusionsmodelle einzusetzen.
Obwohl GANs auf dem neuesten Stand sind, machen es ihre Einschränkungen schwierig, sie zu skalieren und in neuen Kontexten zu verwenden.
Um mithilfe wahrscheinlichkeitsbasierter Modelle eine GAN-ähnliche Probenqualität zu erreichen, wurde viel Arbeit investiert.
Hinterlassen Sie uns einen Kommentar