In den letzten Jahren sind generative Modelle, sogenannte „Diffusionsmodelle“, immer beliebter geworden, und das aus gutem Grund.
Dank einiger ausgewählter wegweisender Veröffentlichungen, die erst in den 2020er und 2021er Jahren veröffentlicht wurden, hat die Welt gesehen, wozu Diffusionsmodelle in der Lage sind, z. B. GANs bei der Bildsynthese zu übertreffen.
Praktiker sahen zuletzt den Einsatz von Diffusionsmodellen in DALL-E2, das Bilderzeugungsmodell von OpenAI, das letzten Monat veröffentlicht wurde.
Viele Praktiker des maschinellen Lernens sind zweifellos neugierig auf das Innenleben von Diffusionsmodellen angesichts ihres jüngsten Erfolgsschubs.
In diesem Beitrag werden wir uns mit den theoretischen Grundlagen von Diffusionsmodellen, ihrem Design, ihren Vorteilen und vielem mehr befassen. Lasst uns anfangen.
Was ist das Diffusionsmodell?
Beginnen wir damit, herauszufinden, warum dieses Modell als Diffusionsmodell bezeichnet wird.
Ein Wort, das im Physikunterricht mit Thermodynamik verwandt ist, heißt Diffusion. Ein System ist nicht im Gleichgewicht, wenn an einem Ort eine große Konzentration eines Stoffes, wie z. B. eines Duftes, vorhanden ist.
Diffusion muss stattfinden, damit das System ins Gleichgewicht kommt. Die Moleküle des Duftstoffs diffundieren von einem Bereich mit höherer Konzentration durch das gesamte System, wodurch das System überall einheitlich wird.
Durch Diffusion wird schließlich alles homogen.
Diffusionsmodelle werden durch diese thermodynamische Ungleichgewichtsbedingung motiviert. Diffusionsmodelle verwenden eine Markov-Kette, bei der es sich um eine Reihe von Variablen handelt, bei denen der Wert jeder Variablen vom Zustand des vorherigen Ereignisses abhängt.
Wenn wir ein Bild aufnehmen, fügen wir ihm während der Vorwärtsdiffusionsphase sukzessive eine bestimmte Menge an Rauschen hinzu.
Nachdem wir das verrauschtere Bild gespeichert haben, erstellen wir das nachfolgende Bild in der Serie, indem wir zusätzliches Rauschen einführen.
Mehrmals wird dieser Vorgang durchgeführt. Durch mehrmaliges Wiederholen dieser Methode entsteht ein reines Rauschbild.
Wie können wir dann aus diesem überladenen Bild ein Bild machen?
Der Diffusionsprozess wird mit a umgekehrt neuronale Netzwerk. Dieselben Netzwerke und dieselben Gewichtungen werden im Rückwärtsdiffusionsprozess verwendet, um das Bild von t bis t-1 zu erstellen.
Anstatt das Netzwerk das Bild vorhersehen zu lassen, kann man versuchen, das Rauschen bei jedem Schritt vorherzusagen, das aus dem Bild entfernt werden muss, um die Aufgabe weiter zu vereinfachen.
In jedem Szenario, die neuronales Netzwerkdesign müssen so ausgewählt werden, dass die Datendimensionalität erhalten bleibt.
Tauchen Sie tief in das Diffusionsmodell ein
Die Komponenten eines Diffusionsmodells sind ein Vorwärtsprozess (auch als Diffusionsprozess bekannt), bei dem ein Datum (häufig ein Bild) allmählich verrauscht wird, und ein Rückwärtsprozess (auch als Rückwärtsdiffusionsprozess bekannt), bei dem Rauschen auftritt zurück in eine Stichprobe aus der Zielverteilung konvertiert.
Wenn der Rauschpegel niedrig genug ist, können bedingte Gaußsche Werte verwendet werden, um die Abtastkettenübergänge im Vorwärtsprozess festzulegen. Aus der Kopplung dieses Wissens mit der Markov-Annahme ergibt sich eine einfache Parametrisierung des Vorwärtsprozesses:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Hier 1 ....T ist ein Varianzplan (entweder erlernt oder festgelegt), der für ausreichend hohes T sicherstellt, dass xT praktisch eine isotrope Gaußsche Funktion ist.
Der umgekehrte Prozess ist der Ort, an dem die Magie des Diffusionsmodells stattfindet. Das Modell lernt, diesen Diffusionsprozess während des Trainings umzukehren, um neue Daten zu produzieren. Das Modell lernt die gemeinsame Verteilung als (x0:T) das Ergebnis, wenn man mit der reinen Gaußschen Rauschgleichung beginnt
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
wo die zeitabhängigen Parameter der Gaußschen Übergänge entdeckt werden. Beachten Sie insbesondere, wie die Markov-Formulierung besagt, dass eine bestimmte Übergangsverteilung der umgekehrten Diffusion ausschließlich vom vorherigen Zeitschritt (oder dem nachfolgenden Zeitschritt, je nachdem, wie Sie es betrachten) abhängt:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Modelltraining
Ein umgekehrtes Markov-Modell, das die Wahrscheinlichkeit der Trainingsdaten maximiert, wird verwendet, um ein Diffusionsmodell zu trainieren. Praktisch gesehen ist das Training analog zum Reduzieren der Variationsobergrenze der negativen logarithmischen Wahrscheinlichkeit.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modelle
Wir müssen nun entscheiden, wie wir unser Diffusionsmodell ausführen, nachdem wir die mathematischen Grundlagen unserer Zielfunktion erstellt haben. Die einzige Entscheidung, die für den Vorwärtsprozess benötigt wird, ist die Bestimmung des Abweichungsplans, dessen Werte typischerweise während des Verfahrens ansteigen.
Wir erwägen dringend, die Parametrisierung und Modellarchitektur der Gaußschen Verteilung für das umgekehrte Verfahren zu verwenden.
Die einzige Bedingung für unser Design ist, dass sowohl der Eingang als auch der Ausgang die gleichen Abmessungen haben. Dies unterstreicht den enormen Freiheitsgrad, den Diffusionsmodelle bieten.
Im Folgenden gehen wir näher auf diese Optionen ein.
Vorwärtsprozess
Wir müssen den Abweichungsplan in Bezug auf den Vorwärtsprozess bereitstellen. Wir haben sie ausdrücklich als zeitabhängige Konstanten festgelegt und die Möglichkeit außer Acht gelassen, dass sie gelernt werden können. Ein chronologischer Zeitplan von
β1 = 10−4 bis βT = 0.02.
Lt wird aufgrund des festen Varianzplans in Bezug auf unseren Satz lernbarer Parameter zu einer Konstante, sodass wir ihn während des Trainings unabhängig von den ausgewählten spezifischen Werten ignorieren können.
Umgekehrter Prozess
Wir gehen nun die Entscheidungen durch, die zur Definition des umgekehrten Prozesses erforderlich sind. Denken Sie daran, wie wir die umgekehrten Markov-Übergänge als Gauß beschrieben haben:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Nun, da wir die Funktionstypen identifiziert haben. Trotz der Tatsache, dass es kompliziertere Techniken zum Parametrisieren gibt, legen wir einfach fest
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Anders ausgedrückt betrachten wir den multivariaten Gauß-Operator als das Ergebnis separater Gauß-Operatoren mit derselben Varianz, einem Varianzwert, der im Laufe der Zeit schwanken kann. Diese Abweichungen werden so eingestellt, dass sie dem Fahrplan der Speditionsprozessabweichungen entsprechen.
Als Ergebnis dieser neuen Formulierung, wir haben:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dies führt zu der unten gezeigten alternativen Verlustfunktion, von der die Autoren festgestellt haben, dass sie zu einem konsistenteren Training und besseren Ergebnissen führt:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Die Autoren ziehen auch Verbindungen zwischen dieser Formulierung von Diffusionsmodellen und auf Langevin basierenden generativen Score-Matching-Modellen. Wie bei der unabhängigen und parallelen Entwicklung der wellenbasierten Quantenphysik und der matrixbasierten Quantenmechanik, die zwei vergleichbare Formulierungen desselben Phänomens offenbarte, scheinen Diffusionsmodelle und ergebnisbasierte Modelle zwei Seiten derselben Medaille zu sein.
Netzwerkarchitektur
Trotz der Tatsache, dass unsere Condensed-Loss-Funktion darauf abzielt, ein Modell zu trainieren Σθhaben wir uns noch nicht für die Architektur dieses Modells entschieden. Denken Sie daran, dass das Modell einfach die gleichen Eingabe- und Ausgabeabmessungen haben muss.
Angesichts dieser Einschränkung ist es wahrscheinlich nicht unerwartet, dass U-Net-ähnliche Architekturen häufig verwendet werden, um Bildverteilungsmodelle zu erstellen.
Entlang der Route des umgekehrten Prozesses werden zahlreiche Änderungen vorgenommen, während kontinuierliche bedingte Gaußsche Verteilungen verwendet werden. Denken Sie daran, dass das Ziel des umgekehrten Verfahrens darin besteht, ein Bild zu erstellen, das aus ganzzahligen Pixelwerten besteht. Es ist daher notwendig, diskrete (log) Wahrscheinlichkeiten für jeden potentiellen Pixelwert über alle Pixel zu bestimmen.
Dies wird erreicht, indem dem letzten Übergang der Rückwärtsdiffusionskette ein separater diskreter Decoder zugewiesen wird. die Wahrscheinlichkeit eines bestimmten Bildes abzuschätzen x0 gegeben x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; μ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ falls x = 1 x + 1 255 falls x < 1 δ−(x) = −∞ falls x = −1 x − 1 255 falls x > −1
wobei das hochgestellte I die Extraktion einer Koordinate bezeichnet und D die Anzahl der Dimensionen in den Daten bezeichnet.
Das Ziel an diesem Punkt besteht darin, die Wahrscheinlichkeit jedes ganzzahligen Werts für ein spezifisches Pixel bei gegebener Verteilung von potentiellen Werten für dieses Pixel in der Zeitvariation festzulegen t = 1.
Letztes Ziel
Laut Wissenschaftlern ergaben sich die größten Ergebnisse aus der Vorhersage der Rauschkomponente eines Bildes zu einem bestimmten Zeitschritt. Am Ende verfolgen sie folgendes Ziel:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
In der folgenden Abbildung sind die Trainings- und Stichprobenverfahren für unser Diffusionsmodell kurz dargestellt:
Vorteile des Diffusionsmodells
Wie bereits angedeutet, hat sich der Forschungsaufwand zu Diffusionsmodellen in letzter Zeit vervielfacht. Diffusionsmodelle liefern jetzt hochmoderne Bildqualität und sind von der Nichtgleichgewichtsthermodynamik inspiriert.
Diffusionsmodelle bieten zusätzlich zu ihrer hochmodernen Bildqualität eine Vielzahl anderer Vorteile, wie z. B. dass kein gegnerisches Training erforderlich ist.
Die Nachteile des gegnerischen Trainings sind allgemein bekannt, daher ist es oft vorzuziehen, nicht gegnerische Alternativen mit gleichwertiger Leistung und Trainingseffektivität zu wählen.
Diffusionsmodelle bieten auch die Vorteile der Skalierbarkeit und Parallelisierbarkeit im Hinblick auf die Trainingseffektivität.
Obwohl Diffusionsmodelle Ergebnisse scheinbar aus dem Nichts zu generieren scheinen, wird die Grundlage für diese Ergebnisse durch eine Reihe durchdachter und interessanter mathematischer Entscheidungen und Feinheiten gelegt, und die Best Practices der Branche werden noch entwickelt.
Zusammenfassung
Abschließend demonstrieren die Forscher qualitativ hochwertige Bildsyntheseergebnisse unter Verwendung von Diffusionswahrscheinlichkeitsmodellen, einer Klasse von latenten Variablenmodellen, die durch Ideen aus der Nichtgleichgewichtsthermodynamik motiviert sind.
Sie haben dank ihrer State-of-the-Art-Ergebnisse und ihres nicht konfrontativen Trainings enorme Dinge erreicht, und angesichts ihrer Kindheit können in den kommenden Jahren weitere Fortschritte erwartet werden.
Insbesondere wurde festgestellt, dass Diffusionsmodelle für die Funktionalität fortschrittlicher Modelle wie DALL-E 2 von entscheidender Bedeutung sind.
Hier Sie können auf die vollständige Recherche zugreifen.
Hinterlassen Sie uns einen Kommentar