Inhaltsverzeichnis[Ausblenden][Zeigen]
Sie wissen wahrscheinlich, dass ein Computer ein Bild beschreiben kann.
Zum Beispiel kann ein Bild von einem Hund, der mit Ihren Kindern spielt, mit „Hund und Kinder im Garten“ übersetzt werden. Aber wussten Sie, dass jetzt auch der umgekehrte Weg möglich ist? Sie geben einige Wörter ein und die Maschine erstellt ein neues Bild.
Im Gegensatz zu einer Google-Suche, die vorhandene Fotos durchsucht, ist dies alles frisch. In den letzten Jahren war OpenAI eine der führenden Organisationen und berichtete über erstaunliche Ergebnisse.
Sie trainieren ihre Algorithmen auf riesigen Text- und Bilddatenbanken. Sie veröffentlichten ein Papier über ihr GLIDE-Bildmodell, das mit Hunderten von Millionen Fotos trainiert wurde. In Bezug auf Fotorealismus übertrifft es ihr vorheriges „DALL-E“-Modell.
In diesem Beitrag sehen wir uns GLIDE von OpenAI an, eine von mehreren faszinierenden Initiativen, die darauf abzielen, fotorealistische Bilder mit textgeführten Diffusionsmodellen zu erzeugen und zu verändern. Lass uns anfangen.
Was ist Öffnen Sie AI Glide?
Während die meisten Bilder mit Worten beschrieben werden können, erfordert das Erstellen von Bildern aus Texteingaben Fachwissen und einen erheblichen Zeitaufwand.
Indem es einem KI-Agenten ermöglicht wird, fotorealistische Bilder aus Eingabeaufforderungen in natürlicher Sprache zu erstellen, können Menschen nicht nur reichhaltiges und vielfältiges visuelles Material mit beispielloser Leichtigkeit erstellen, sondern auch eine einfachere iterative Verfeinerung und feinkörnige Kontrolle der erstellten Bilder.
GLIDE kann zum Bearbeiten vorhandener Fotos verwendet werden, indem Textansagen in natürlicher Sprache verwendet werden, um neue Objekte einzufügen, Schatten und Reflexionen zu erzeugen und auszuführen Bild in der Malerei, Und so weiter.
Es kann auch einfache Strichzeichnungen in fotorealistische Fotografien umwandeln und verfügt über außergewöhnliche Nullmuster-Fertigungs- und Reparaturfähigkeiten für komplexe Situationen.
Jüngste Forschungen haben gezeigt, dass wahrscheinlichkeitsbasierte Diffusionsmodelle auch qualitativ hochwertige synthetische Bilder erzeugen können, insbesondere wenn sie mit einem Leitansatz kombiniert werden, der Vielfalt und Wiedergabetreue ausbalanciert.
OpenAI veröffentlichte a Geführtes Diffusionsmodell im Mai, wodurch Diffusionsmodelle von den Labels eines Klassifikators abhängig gemacht werden können. GLIDE verbessert diesen Erfolg, indem es geführte Diffusion auf das Problem der textbedingten Bilderzeugung bringt.
Nach dem Training eines GLIDE-Diffusionsmodells mit 3.5 Milliarden Parametern unter Verwendung eines Textcodierers, um Beschreibungen in natürlicher Sprache zu konditionieren, testeten die Forscher zwei alternative Führungsstrategien: CLIP-Führung und klassifiziererfreie Führung.
CLIP ist eine skalierbare Technik zum Erlernen gemeinsamer Darstellungen von Text und Bildern, die eine Bewertung basierend darauf liefert, wie nahe ein Bild an einer Bildunterschrift ist.
Das Team nutzte diese Strategie in seinen Diffusionsmodellen, indem es den Klassifikator durch ein CLIP-Modell ersetzte, das die Modelle „leitet“. Klassifikatorfreie Führung ist eine Strategie zum Lenken von Diffusionsmodellen, die nicht das Training eines separaten Klassifikators beinhalten.
GLIDE-Architektur
Die GLIDE-Architektur besteht aus drei Komponenten: einem Ablated Diffusion Model (ADM), das darauf trainiert ist, ein 64 × 64-Bild zu erzeugen, einem Textmodell (Transformer), das die Bilderzeugung über eine Texteingabeaufforderung beeinflusst, und einem Upsampling-Modell, das unser kleines 64 × 64-Bild konvertiert Bilder auf besser interpretierbare 256 x 256 Pixel.
Die ersten beiden Komponenten arbeiten zusammen, um den Bilderzeugungsprozess so zu steuern, dass er die Textaufforderung angemessen widerspiegelt, während letztere erforderlich ist, um die von uns erstellten Bilder leichter verständlich zu machen. Das GLIDE-Projekt wurde inspiriert von a Bericht im Jahr 2021 veröffentlicht die zeigten, dass ADM-Techniken die derzeit beliebten, hochmodernen generativen Modelle in Bezug auf die Qualität der Bildproben übertrafen.
Für das ADM verwendeten die GLIDE-Autoren das gleiche ImageNet 64 x 64-Modell wie Dhariwal und Nichol, aber mit 512 Kanälen statt 64. Das ImageNet-Modell hat daher ungefähr 2.3 Milliarden Parameter.
Das GLIDE-Team wollte im Gegensatz zu Dhariwal und Nichol eine größere direkte Kontrolle über den Bilderzeugungsprozess haben, daher kombinierten sie das visuelle Modell mit einem aufmerksamkeitsfähigen Transformator. GLIDE gibt Ihnen eine gewisse Kontrolle über die Ausgabe des Bilderzeugungsprozesses, indem es die Texteingabeaufforderungen verarbeitet.
Dies wird erreicht, indem das Transformatormodell mit einem entsprechend großen Datensatz von Fotos und Bildunterschriften trainiert wird (ähnlich dem, der im DALL-E-Projekt verwendet wird).
Der Text wird zunächst in eine Reihe von K-Tokens kodiert, um ihn zu konditionieren. Danach werden die Token in ein Transformer-Modell geladen. Der Ausgang des Transformators kann dann auf zwei Arten verwendet werden. Für das ADM-Modell wird die endgültige Token-Einbettung anstelle der Klassen-Einbettung verwendet.
Zweitens wird die letzte Ebene der Token-Einbettungen – eine Reihe von Merkmalsvektoren – unabhängig auf die Dimensionen für jede Aufmerksamkeitsebene im ADM-Modell projiziert und mit jedem Aufmerksamkeitskontext verkettet.
In Wirklichkeit ermöglicht dies dem ADM-Modell, ein Bild aus neuen Kombinationen ähnlicher Text-Tokens auf einzigartige und fotorealistische Weise zu erzeugen, basierend auf seinem erlernten Verständnis der Eingabewörter und ihrer zugehörigen Bilder. Dieser Textcodierungstransformator enthält 1.2 Milliarden Parameter und verwendet 24 übrig gebliebene Blöcke mit einer Breite von 2048.
Schließlich umfasst das Upsampler-Diffusionsmodell rund 1.5 Milliarden Parameter und unterscheidet sich vom Basismodell dadurch, dass sein Text-Encoder mit einer Breite von 1024 und 384 Basiskanälen kleiner ist als beim Basismodell. Dieses Modell hilft, wie der Name schon sagt, bei der Aufwertung der Stichprobe, um die Interpretierbarkeit sowohl für Maschinen als auch für Menschen zu verbessern.
Diffusionsmodell
GLIDE generiert Bilder mit einer eigenen Version des ADM (ADM-G für „guided“). Das ADM-G-Modell ist eine Modifikation des Diffusions-U-Netz-Modells. Ein Diffusions-U-Netz-Modell unterscheidet sich dramatisch von den gebräuchlicheren Bildsynthesetechniken wie VAE, GAN und Transformatoren.
Sie bauen eine Markov-Kette von Diffusionsschritten auf, um nach und nach zufälliges Rauschen in die Daten einzufügen, und lernen dann, den Diffusionsprozess umzukehren und die erforderlichen Datenproben allein aus dem Rauschen wieder aufzubauen. Es arbeitet in zwei Stufen: Vorwärts- und Rückwärtsdiffusion.
Die Vorwärtsdiffusionsmethode fügt bei einem gegebenen Datenpunkt aus der wahren Verteilung der Probe über eine voreingestellte Reihe von Schritten eine winzige Menge Rauschen zur Probe hinzu. Wenn die Stufen größer werden und sich der Unendlichkeit nähern, verliert die Probe alle erkennbaren Eigenschaften und die Folge beginnt, einer isotropen Gaußschen Kurve zu ähneln.
Während der Rückwärtsdiffusion Phase, das Diffusionsmodell lernt, den Einfluss des hinzugefügten Rauschens auf die Bilder umzukehren und das erzeugte Bild wieder in seine ursprüngliche Form zu bringen, indem er versucht, der ursprünglichen Eingangsmusterverteilung zu ähneln.
Ein fertiges Modell könnte dies mit einer echten Gaußschen Rauscheingabe und einer Eingabeaufforderung tun. Das ADM-G-Verfahren unterscheidet sich von dem vorhergehenden dadurch, dass ein Modell, entweder CLIP oder ein kundenspezifischer Transformator, die Rückwärtsdiffusionsphase beeinflusst, indem es die eingegebenen Textaufforderungstoken verwendet.
Gleitfähigkeiten
1. Bilderzeugung
Die beliebteste und am weitesten verbreitete Anwendung von GLIDE wird wahrscheinlich die Bildsynthese sein. Obwohl die Bilder bescheiden sind und GLIDE Schwierigkeiten mit tierischen/menschlichen Formen hat, ist das Potenzial für die One-Shot-Bildproduktion nahezu unbegrenzt.
Es kann Fotos von Tieren, Prominenten, Landschaften, Gebäuden und vielem mehr erstellen, und zwar in einer Vielzahl von Kunststilen sowie fotorealistisch. Die Autoren der Forscher behaupten, dass GLIDE in der Lage ist, eine Vielzahl von Texteingaben zu interpretieren und in ein visuelles Format umzuwandeln, wie in den folgenden Beispielen zu sehen ist.
2. Glide-Inpainting
Das automatische Foto-Inpainting von GLIDE ist wohl die faszinierendste Anwendung. GLIDE kann ein vorhandenes Bild als Eingabe nehmen, es unter Berücksichtigung der Texteingabeaufforderung für Positionen verarbeiten, die geändert werden müssen, und dann mit Leichtigkeit aktive Änderungen an diesen Teilen vornehmen.
Es muss in Verbindung mit einem Bearbeitungsmodell wie SDEdit verwendet werden, um noch bessere Ergebnisse zu erzielen. In Zukunft könnten Apps, die sich solche Funktionen zunutze machen, entscheidend für die Entwicklung codefreier Bildveränderungsansätze sein.
Zusammenfassung
Jetzt, da wir den Prozess durchlaufen haben, sollten Sie die Grundlagen der Funktionsweise von GLIDE sowie die Breite seiner Fähigkeiten bei der Bilderstellung und In-Image-Änderung verstehen.
Hinterlassen Sie uns einen Kommentar