Wir stehen wahrscheinlich erst am Anfang einer neuen generativen KI-Revolution.
Generative künstliche Intelligenz bezieht sich auf Algorithmen und Modelle, die in der Lage sind, Inhalte zu erstellen. Die Ausgabe solcher Modelle umfasst Text, Audio und Bilder, die oft als echte menschliche Ausgabe verwechselt werden können.
Anwendungen wie ChatGPT haben gezeigt, dass generative KI keine Neuheit ist. Die KI ist jetzt in der Lage, detaillierten Anweisungen zu folgen und scheint ein tiefes Verständnis dafür zu haben, wie die Welt funktioniert.
Aber wie sind wir an diesen Punkt gekommen? In diesem Leitfaden gehen wir auf einige der wichtigsten Durchbrüche in der KI-Forschung ein, die den Weg für diese neue und aufregende generative KI-Revolution geebnet haben.
Der Aufstieg neuronaler Netze
Sie können die Ursprünge der modernen KI in der Forschung nachverfolgen Deep Learning und neuronale Netze .
In diesem Jahr gelang es Alex Krizhevsky und seinem Team von der University of Toronto, einen hochgenauen Algorithmus zu entwickeln, der Objekte klassifizieren kann.
Das hochmodernes neuronales Netzwerk, jetzt bekannt als AlexNet, konnte Objekte in der visuellen ImageNet-Datenbank mit einer viel geringeren Fehlerrate klassifizieren als der Zweitplatzierte.
Neuronale Netze sind Algorithmen, die ein Netzwerk aus mathematischen Funktionen verwenden, um ein bestimmtes Verhalten auf der Grundlage einiger Trainingsdaten zu lernen. Beispielsweise können Sie ein neuronales Netzwerk mit medizinischen Daten füttern, um das Modell darauf zu trainieren, eine Krankheit wie Krebs zu diagnostizieren.
Die Hoffnung ist, dass das neuronale Netzwerk langsam Muster in den Daten findet und genauer wird, wenn es neue Daten erhält.
AlexNet war eine bahnbrechende Anwendung von a Faltungs neuronales Netzwerk oder CNNs. Das Schlüsselwort „Convolutional“ bezieht sich auf das Hinzufügen von Convolutional Layers, die mehr Wert auf Daten legen, die näher beieinander liegen.
Während CNNs bereits in den 1980er Jahren eine Idee waren, gewannen sie erst in den frühen 2010er Jahren an Popularität, als die neueste GPU-Technologie die Technologie zu neuen Höhen führte.
Der Erfolg von CNNs im Bereich Computer Vision führte zu einem größeren Interesse an der Erforschung neuronaler Netze.
Tech-Giganten wie Google und Facebook haben beschlossen, ihre eigenen KI-Frameworks für die Öffentlichkeit freizugeben. High-Level-APIs wie z Keras gab Benutzern eine benutzerfreundliche Oberfläche, um mit tiefen neuronalen Netzen zu experimentieren.
CNNs waren großartig in der Bilderkennung und Videoanalyse, hatten aber Probleme, sprachbasierte Probleme zu lösen. Diese Einschränkung bei der Verarbeitung natürlicher Sprache könnte daran liegen, dass Bilder und Text eigentlich grundlegend unterschiedliche Probleme haben.
Wenn Sie beispielsweise ein Modell haben, das klassifiziert, ob ein Bild eine Ampel enthält, kann die betreffende Ampel überall im Bild erscheinen. Diese Art von Nachsicht funktioniert jedoch nicht gut in der Sprache. Die Sätze „Bob ate fish“ und „Fish ate Bob“ haben sehr unterschiedliche Bedeutungen, obwohl sie die gleichen Wörter verwenden.
Es war klar geworden, dass Forscher einen neuen Ansatz finden mussten, um Probleme mit der menschlichen Sprache zu lösen.
Transformatoren verändern alles
In 2017, um Forschungsarbeit mit dem Titel „Attention Is All You Need“ schlug einen neuen Netzwerktyp vor: den Transformer.
Während CNNs arbeiten, indem sie wiederholt kleine Teile eines Bildes filtern, verbinden Transformer jedes Element in den Daten mit jedem anderen Element. Forscher nennen diesen Vorgang „Selbstaufmerksamkeit“.
Beim Versuch, Sätze zu parsen, arbeiten CNNs und Transformer sehr unterschiedlich. Während sich ein CNN darauf konzentriert, Verbindungen mit nahe beieinander liegenden Wörtern herzustellen, stellt ein Transformer Verbindungen zwischen jedem einzelnen Wort in einem Satz her.
Der Selbstaufmerksamkeitsprozess ist ein integraler Bestandteil des Verständnisses der menschlichen Sprache. Durch Herauszoomen und Betrachten, wie der gesamte Satz zusammenpasst, können Maschinen die Satzstruktur besser verstehen.
Nach der Veröffentlichung der ersten Transformatormodelle nutzten die Forscher bald die neue Architektur, um die unglaubliche Menge an Textdaten im Internet zu nutzen.
GPT-3 und das Internet
Im Jahr 2020 werden OpenAIs GPT-3 Modell zeigte, wie effektiv Transformatoren sein können. GPT-3 war in der Lage, Text auszugeben, der kaum von einem Menschen zu unterscheiden scheint. Ein Teil dessen, was GPT-3 so leistungsfähig machte, war die Menge der verwendeten Trainingsdaten. Der größte Teil des Pre-Training-Datensatzes des Modells stammt aus einem Datensatz namens Common Crawl, der über 400 Milliarden Token enthält.
Während die Fähigkeit von GPT-3, realistischen menschlichen Text zu generieren, an sich schon bahnbrechend war, entdeckten Forscher, wie dasselbe Modell andere Aufgaben lösen kann.
Dasselbe GPT-3-Modell, das Sie beispielsweise zum Generieren eines Tweets verwenden können, kann Ihnen auch dabei helfen, Text zusammenzufassen, einen Absatz neu zu schreiben und eine Geschichte fertigzustellen. Sprachmodelle sind so mächtig geworden, dass sie jetzt im Wesentlichen Allzweckwerkzeuge sind, die jeder Art von Befehl folgen.
Die Allzwecknatur von GPT-3 hat Anwendungen wie z GitHub-Copilot, die es Programmierern ermöglicht, funktionierenden Code aus einfachem Englisch zu generieren.
Verbreitungsmodelle: Vom Text zum Bild
Die Fortschritte bei Transformers und NLP haben auch in anderen Bereichen den Weg für die generative KI geebnet.
Im Bereich Computer Vision haben wir bereits behandelt, wie Deep Learning es Maschinen ermöglicht, Bilder zu verstehen. Wir mussten jedoch noch einen Weg finden, wie KI Bilder selbst erzeugen kann, anstatt sie nur zu klassifizieren.
Generative Bildmodelle wie DALL-E 2, Stable Diffusion und Midjourney sind populär geworden, weil sie Texteingaben in Bilder umwandeln können.
Diese Bildmodelle beruhen auf zwei Schlüsselaspekten: einem Modell, das die Beziehung zwischen Bildern und Text versteht, und einem Modell, das tatsächlich ein hochauflösendes Bild erstellen kann, das der Eingabe entspricht.
OpenAIs CLIP (Contrastive Language–Image Pre-training) ist ein Open-Source-Modell, das darauf abzielt, den ersten Aspekt zu lösen. Bei einem gegebenen Bild kann das CLIP-Modell die relevanteste Textbeschreibung für dieses bestimmte Bild vorhersagen.
Das CLIP-Modell funktioniert, indem es lernt, wichtige Bildmerkmale zu extrahieren und eine einfachere Darstellung eines Bildes zu erstellen.
Wenn Benutzer DALL-E 2 eine Beispieltexteingabe bereitstellen, wird die Eingabe mithilfe des CLIP-Modells in eine „Bildeinbettung“ umgewandelt. Das Ziel ist nun, einen Weg zu finden, ein Bild zu generieren, das zu der generierten Bildeinbettung passt.
Die neuesten generativen Bild-KIs verwenden a Diffusionsmodell sich der Aufgabe zu stellen, ein Bild tatsächlich zu erstellen. Diffusionsmodelle beruhen auf neuralen Netzwerken, die darauf trainiert wurden, zusätzliches Rauschen aus Bildern zu entfernen.
Während dieses Trainingsprozesses kann das neuronale Netzwerk schließlich lernen, wie man aus einem Bild mit zufälligem Rauschen ein hochauflösendes Bild erstellt. Da wir bereits über eine von CLIP bereitgestellte Zuordnung von Text und Bildern verfügen, können wir dies tun Trainiere ein Diffusionsmodell auf CLIP-Bildeinbettungen, um einen Prozess zum Generieren eines beliebigen Bildes zu erstellen.
Revolution der generativen KI: Was kommt als nächstes?
Wir sind jetzt an einem Punkt angelangt, an dem alle paar Tage Durchbrüche in der generativen KI stattfinden. Da es immer einfacher wird, verschiedene Arten von Medien mithilfe von KI zu generieren, sollten wir uns Sorgen darüber machen, wie sich dies auf unsere Gesellschaft auswirken könnte?
Während die Sorgen um Maschinen, die Arbeiter ersetzen, seit der Erfindung der Dampfmaschine immer im Gespräch waren, scheint es diesmal etwas anders zu sein.
Die generative KI entwickelt sich zu einem Mehrzweckwerkzeug, das Branchen stören kann, die vor einer KI-Übernahme als sicher galten.
Werden wir Programmierer brauchen, wenn die KI mit dem Schreiben von fehlerfreiem Code aus ein paar einfachen Anweisungen beginnen kann? Werden die Leute Kreative einstellen, wenn sie einfach ein generatives Modell verwenden können, um die gewünschte Ausgabe billiger zu produzieren?
Es ist schwierig, die Zukunft der generativen KI-Revolution vorherzusagen. Aber jetzt, da die bildliche Büchse der Pandora geöffnet wurde, hoffe ich, dass die Technologie weitere aufregende Innovationen ermöglichen wird, die einen positiven Einfluss auf die Welt haben können.
Hinterlassen Sie uns einen Kommentar