In den letzten Jahren sind Deep-Learning-Modelle beim Verständnis der menschlichen Sprache effektiver geworden.
Denken Sie an Projekte wie GPT-3, das jetzt ganze Artikel und Websites erstellen kann. GitHub hat kürzlich eingeführt GitHub-Copilot, ein Dienst, der vollständige Code-Snippets bereitstellt, indem er einfach den Typ des Codes beschreibt, den Sie benötigen.
Forscher von OpenAI, Facebook und Google haben an Möglichkeiten gearbeitet, Deep Learning für eine andere Aufgabe zu nutzen: das Beschriften von Bildern. Unter Verwendung eines großen Datensatzes mit Millionen von Einträgen haben sie sich einige ausgedacht überraschend Ergebnisse.
In letzter Zeit haben diese Forscher versucht, die entgegengesetzte Aufgabe auszuführen: Bilder aus einer Bildunterschrift zu erstellen. Kann man nun aus einer Beschreibung ein komplett neues Bild erstellen?
In diesem Leitfaden werden zwei der fortschrittlichsten Text-zu-Bild-Modelle untersucht: DALL-E 2 von OpenAI und Imagen AI von Google. Jedes dieser Projekte hat bahnbrechende Methoden eingeführt, die die Gesellschaft, wie wir sie kennen, verändern können.
Aber lassen Sie uns zuerst verstehen, was wir mit Text-zu-Bild-Generierung meinen.
Was ist Text-zu-Bild-Generierung?
Text-zu-Bild-Modelle ermöglichen Computern, neue und einzigartige Bilder basierend auf Eingabeaufforderungen zu erstellen. Benutzer können nun eine Textbeschreibung eines Bildes bereitstellen, das sie erstellen möchten, und das Modell versucht, ein Bild zu erstellen, das dieser Beschreibung so gut wie möglich entspricht.
Modelle für maschinelles Lernen haben die Verwendung großer Datensätze mit Bild-Beschriftungs-Paaren genutzt, um die Leistung weiter zu verbessern.
Die meisten Text-zu-Bild Modelle verwenden ein Transformer-Sprachmodell Aufforderungen zu interpretieren. Diese Art von Modell ist ein neuronale Netzwerk das versucht, den Kontext und die semantische Bedeutung natürlicher Sprache zu lernen.
Als nächstes generative Modelle wie z Diffusionsmodelle und generative gegnerische Netzwerke werden zur Bildsynthese verwendet.
Was ist DALLE2?
DALL-E2 ist ein Computermodell von OpenAI, das im April 2022 veröffentlicht wurde. Das Modell wurde auf einer Datenbank mit Millionen von beschrifteten Bildern trainiert, um Wörter und Sätze mit Bildern zu verknüpfen.
Benutzer können einen einfachen Satz eingeben, z. B. „eine Katze, die Lasagne isst“, und DALL-E 2 generiert seine eigene Interpretation dessen, was der Satz zu beschreiben versucht.
Neben dem Erstellen von Bildern von Grund auf kann DALL-E 2 auch vorhandene Bilder bearbeiten. Im Beispiel unten konnte DALL-E ein modifiziertes Bild eines Raums mit einer hinzugefügten Couch erzeugen.
DALL-E 2 ist nur eines von vielen ähnlichen Projekten, die OpenAI in den letzten Jahren veröffentlicht hat. GPT-3 von OpenAI wurde berichtenswert, als es schien, Text mit unterschiedlichen Stilen zu erzeugen.
Derzeit befindet sich DALL-E 2 noch im Beta-Test. Interessierte Benutzer können sich für ihre anmelden Warteliste und auf Zugriff warten.
Wie funktioniert es?
Während die Ergebnisse von DALL-E 2 beeindruckend sind, fragen Sie sich vielleicht, wie das alles funktioniert.
DALL-E 2 ist ein Beispiel für eine multimodale Implementierung des GPT-3-Projekts von OpenAI.
Zuerst wird die Texteingabeaufforderung des Benutzers in einen Textcodierer platziert, der die Eingabeaufforderung auf einen Repräsentationsraum abbildet. DALL-E 2 verwendet ein weiteres OpenAI-Modell namens CLIP (Contrastive Language-Image Pre-Training), um semantische Informationen aus natürlicher Sprache zu erhalten.
Als nächstes ein Modell, das als bekannt ist vor ordnet die Textcodierung einer Bildcodierung zu. Diese Bildcodierung sollte die semantischen Informationen erfassen, die im Schritt der Textcodierung gefunden wurden.
Um das eigentliche Bild zu erstellen, verwendet DALL-E 2 einen Bilddecodierer, um anhand von semantischen Informationen und Bildcodierungsdetails ein visuelles Bild zu erzeugen. OpenAI verwendet eine modifizierte Version des GLEITEN Modell zur Durchführung der Bilderzeugung. GLIDE setzt auf a Diffusionsmodell Bilder zu erstellen.
Das Hinzufügen von GLIDE zum DALL-E 2-Modell ermöglichte eine fotorealistischere Ausgabe. Da das GLIDE-Modell stochastisch oder zufällig bestimmt ist, kann das DALL-E 2-Modell leicht Variationen erzeugen, indem das Modell immer wieder ausgeführt wird.
Einschränkungen
Trotz der beeindruckenden Ergebnisse des DALL-E 2-Modells gibt es noch einige Einschränkungen.
Rechtschreibtext
Eingabeaufforderungen, die versuchen, DALL-E 2 dazu zu bringen, Text zu generieren, zeigen, dass es Schwierigkeiten hat, Wörter zu buchstabieren. Experten gehen davon aus, dass dies daran liegen könnte, dass Rechtschreibinformationen nicht Bestandteil der sind Trainingsdatensatz.
Kompositorisches Denken
Forscher beobachten, dass DALL-E 2 immer noch einige Schwierigkeiten mit dem kompositorischen Denken hat. Einfach ausgedrückt, das Modell kann einzelne Aspekte eines Bildes verstehen, hat aber immer noch Probleme, die Beziehungen zwischen diesen Aspekten herauszufinden.
Wenn zum Beispiel die Eingabeaufforderung „roter Würfel auf blauem Würfel“ gegeben wird, generiert DALL-E einen blauen Würfel und einen roten Würfel genau, platziert sie aber nicht richtig. Es wurde auch beobachtet, dass das Modell Schwierigkeiten mit Eingabeaufforderungen hat, die das Herausziehen einer bestimmten Anzahl von Objekten erfordern.
Bias im Datensatz
Wenn die Eingabeaufforderung keine weiteren Details enthält, wurde beobachtet, dass DALL-E weiße oder westliche Menschen und Umgebungen darstellt. Diese Darstellungsverzerrung tritt aufgrund der Fülle westlich zentrierter Bilder im Datensatz auf.
Es wurde auch beobachtet, dass das Modell Geschlechterstereotypen folgt. Wenn Sie beispielsweise den Prompt „Flight Attendant“ eingeben, werden meistens Bilder von weiblichen Flugbegleitern generiert.
Was ist Google Imagen AI?
Google Bild-KI ist ein Modell, das darauf abzielt, fotorealistische Bilder aus Eingabetext zu erstellen. Ähnlich wie DALL-E verwendet das Modell auch Transformer-Sprachmodelle, um den Text zu verstehen, und stützt sich auf die Verwendung von Diffusionsmodellen, um qualitativ hochwertige Bilder zu erstellen.
Neben Imagen hat Google auch einen Benchmark für Text-zu-Bild-Modelle namens DrawBench veröffentlicht. Mithilfe von DrawBench konnten sie beobachten, dass menschliche Bewerter die Imagen-Ausgabe gegenüber anderen Modellen, einschließlich DALL-E 2, bevorzugten.
Wie funktioniert es?
Ähnlich wie bei DALL-E konvertiert Imagen zunächst die Benutzeraufforderung in eine Texteinbettung durch einen eingefrorenen Text-Encoder.
Imagen verwendet ein Diffusionsmodell, das lernt, ein Rauschmuster in Bilder umzuwandeln. Die anfängliche Ausgabe dieser Bilder hat eine niedrige Auflösung und wird später durch ein anderes Modell geleitet, das als Super-Resolution-Diffusionsmodell bekannt ist, um die Auflösung des endgültigen Bildes zu erhöhen. Das erste Diffusionsmodell gibt ein 64 × 64-Pixel-Bild aus und wird später auf ein hochauflösendes 1024 × 1024-Bild aufgeblasen.
Basierend auf der Forschung des Imagen-Teams sind große eingefrorene Sprachmodelle, die nur auf Textdaten trainiert werden, immer noch hochwirksame Textcodierer für die Text-zu-Bild-Generierung.
Die Studie führt auch das Konzept der dynamischen Schwellenwertbildung ein. Mit dieser Methode können Bilder fotorealistischer erscheinen, indem die Führungsgewichte beim Generieren des Bildes erhöht werden.
Leistung von DALLE 2 vs. Imagen
Vorläufige Ergebnisse von Googles Benchmark zeigen, dass menschliche Befragte von Imagen generierte Bilder gegenüber DALL-E 2 und anderen Text-zu-Bild-Modellen wie Latent Diffusion und VQGAN+CLIP bevorzugen.
Die Ergebnisse des Imagen-Teams haben auch gezeigt, dass ihr Modell bei der Rechtschreibung von Text besser abschneidet, eine bekannte Schwäche des DALL-E 2-Modells.
Da Google das Modell allerdings noch nicht für die Öffentlichkeit freigegeben hat, bleibt abzuwarten, wie genau die Benchmarks von Google sind.
Zusammenfassung
Der Aufstieg fotorealistischer Text-to-Image-Modelle ist umstritten, da diese Modelle reif für unethischen Gebrauch sind.
Die Technologie kann zur Erstellung expliziter Inhalte führen oder als Instrument zur Desinformation dienen. Dessen sind sich Forscher sowohl von Google als auch von OpenAI bewusst, was teilweise der Grund dafür ist, dass diese Technologien immer noch nicht für jedermann zugänglich sind.
Text-to-Image-Modelle haben auch erhebliche wirtschaftliche Auswirkungen. Werden Berufe wie Models, Fotografen und Künstler betroffen sein, wenn Models wie DALL-E zum Mainstream werden?
Im Moment haben diese Modelle noch Einschränkungen. Wenn Sie ein KI-generiertes Bild genau unter die Lupe nehmen, werden dessen Unvollkommenheiten aufgedeckt. Da sowohl OpenAI als auch Google um die effektivsten Modelle konkurrieren, kann es eine Frage der Zeit sein, bis ein wirklich perfektes Ergebnis generiert wird: ein Bild, das nicht von der Realität zu unterscheiden ist.
Was wird Ihrer Meinung nach passieren, wenn die Technologie so weit geht?
Hinterlassen Sie uns einen Kommentar