Ein klassisches Problem der künstlichen Intelligenz ist das Streben nach einer Maschine, die die menschliche Sprache verstehen kann.
Wenn Sie beispielsweise in Ihrer bevorzugten Suchmaschine nach „italienischen Restaurants in der Nähe“ suchen, muss ein Algorithmus jedes Wort in Ihrer Suchanfrage analysieren und die relevanten Ergebnisse ausgeben. Eine anständige Übersetzungs-App muss den Kontext eines bestimmten englischen Wortes verstehen und irgendwie die Unterschiede in der Grammatik zwischen den Sprachen berücksichtigen.
All diese Aufgaben und noch viel mehr fallen unter das Teilgebiet der Informatik Verarbeitung natürlicher Sprache oder NLP. Fortschritte im NLP haben zu einer breiten Palette praktischer Anwendungen geführt, von virtuellen Assistenten wie Amazons Alexa bis hin zu Spamfiltern, die bösartige E-Mails erkennen.
Der jüngste Durchbruch im NLP ist die Idee von a großes Sprachmodell oder LLM. LLMs wie GPT-3 sind so leistungsfähig geworden, dass sie in fast jeder NLP-Aufgabe oder jedem Anwendungsfall erfolgreich zu sein scheinen.
In diesem Artikel werden wir untersuchen, was genau LLMs sind, wie diese Modelle trainiert werden und welche aktuellen Einschränkungen sie haben.
Was ist ein großes Sprachmodell?
Im Kern ist ein Sprachmodell einfach ein Algorithmus, der weiß, wie wahrscheinlich es ist, dass eine Folge von Wörtern ein gültiger Satz ist.
Ein sehr einfaches Sprachmodell, das an ein paar hundert Büchern trainiert wurde, sollte in der Lage sein zu sagen, dass „Er ging nach Hause“ gültiger ist als „Nach Hause ging er“.
Wenn wir den relativ kleinen Datensatz durch einen massiven Datensatz aus dem Internet ersetzen, nähern wir uns der Idee von a großes Sprachmodell.
Die richtigen Neuronale Netzekönnen Forscher LLMs mit einer großen Menge an Textdaten trainieren. Aufgrund der Menge an Textdaten, die das Modell gesehen hat, wird das LLM sehr gut darin, das nächste Wort in einer Sequenz vorherzusagen.
Das Modell wird so ausgefeilt, dass es viele NLP-Aufgaben ausführen kann. Zu diesen Aufgaben gehören das Zusammenfassen von Text, das Erstellen neuartiger Inhalte und sogar das Simulieren einer menschenähnlichen Konversation.
Das sehr beliebte GPT-3-Sprachmodell wird beispielsweise mit über 175 Milliarden Parametern trainiert und gilt als das bisher fortschrittlichste Sprachmodell.
Es kann funktionierenden Code generieren, ganze Artikel schreiben und versuchen, Fragen zu jedem Thema zu beantworten.
Wie werden LLMs ausgebildet?
Wir haben kurz die Tatsache angesprochen, dass LLMs einen Großteil ihrer Leistungsfähigkeit der Größe ihrer Trainingsdaten verdanken. Nicht umsonst nennen wir sie doch „große“ Sprachmodelle.
Vorschulung mit einer Transformer-Architektur
Während der Vorschulungsphase werden LLMs in vorhandene Textdaten eingeführt, um die allgemeine Struktur und Regeln einer Sprache zu lernen.
In den letzten Jahren wurden LLMs auf Datensätze vortrainiert, die einen erheblichen Teil des öffentlichen Internets abdecken. Beispielsweise wurde das Sprachmodell von GPT-3 mit Daten aus dem trainiert Allgemeines Crawlen Dataset, ein Korpus von Web-Posts, Webseiten und digitalisierten Büchern, die aus über 50 Millionen Domains geschabt wurden.
Der riesige Datensatz wird dann in ein Modell eingespeist, das als a bekannt ist Transformator. Transformatoren sind eine Art von tiefes neuronales Netzwerk das funktioniert am besten für sequentielle Daten.
Transformatoren verwenden eine Encoder-Decoder-Architektur zur Handhabung von Ein- und Ausgabe. Im Wesentlichen enthält der Transformator zwei neuronale Netze: einen Encoder und einen Decoder. Der Encoder kann die Bedeutung des Eingabetextes extrahieren und als Vektor speichern. Der Decoder empfängt dann den Vektor und erzeugt seine Interpretation des Textes.
Das Schlüsselkonzept, das es der Transformer-Architektur ermöglicht hat, so gut zu funktionieren, ist jedoch das Hinzufügen von a Selbstaufmerksamkeitsmechanismus. Das Konzept der Selbstaufmerksamkeit ermöglichte es dem Modell, auf die wichtigsten Wörter in einem bestimmten Satz zu achten. Der Mechanismus berücksichtigt sogar die Gewichtungen zwischen Wörtern, die aufeinanderfolgend weit voneinander entfernt sind.
Ein weiterer Vorteil der Selbstaufmerksamkeit ist, dass der Prozess parallelisiert werden kann. Anstatt sequentielle Daten der Reihe nach zu verarbeiten, können Transformer-Modelle alle Eingaben auf einmal verarbeiten. Dadurch können Transformer im Vergleich zu anderen Methoden relativ schnell mit riesigen Datenmengen trainieren.
Feintuning
Nach der Vorschulungsphase können Sie wählen, ob Sie einen neuen Text für das Basis-LLM einführen möchten, auf dem trainiert werden soll. Wir nennen diesen Prozess Feintuning und wird häufig verwendet, um die Leistung des LLM bei einer bestimmten Aufgabe weiter zu verbessern.
Beispielsweise möchten Sie möglicherweise einen LLM verwenden, um Inhalte für Ihr Twitter-Konto zu generieren. Wir können dem Modell mehrere Beispiele Ihrer vorherigen Tweets zur Verfügung stellen, um ihm eine Vorstellung von der gewünschten Ausgabe zu geben.
Es gibt verschiedene Arten der Feinabstimmung.
Wenig-Schuss-Lernen bezieht sich auf den Prozess, einem Modell eine kleine Anzahl von Beispielen zu geben, in der Erwartung, dass das Sprachmodell herausfinden wird, wie es eine ähnliche Ausgabe erzeugen kann. One-Shot-Lernen ist ein ähnlicher Prozess, außer dass nur ein einziges Beispiel bereitgestellt wird.
Einschränkungen großer Sprachmodelle
LLMs wie GPT-3 sind in der Lage, eine Vielzahl von Anwendungsfällen auch ohne Feinabstimmung durchzuführen. Diese Modelle haben jedoch immer noch ihre eigenen Einschränkungen.
Fehlendes semantisches Weltverständnis
An der Oberfläche scheinen LLMs Intelligenz zu zeigen. Diese Modelle funktionieren jedoch nicht auf die gleiche Weise menschliches Gehirn tut. LLMs verlassen sich ausschließlich auf statistische Berechnungen, um Ergebnisse zu generieren. Sie haben nicht die Fähigkeit, Ideen und Konzepte selbst zu begründen.
Aus diesem Grund kann ein LLM unsinnige Antworten ausgeben, nur weil die Wörter „richtig“ oder „statistisch wahrscheinlich“ erscheinen, wenn sie in dieser bestimmten Reihenfolge platziert werden.
Halluzinationen
Modelle wie GPT-3 leiden auch unter ungenauen Antworten. LLMs können unter einem Phänomen leiden, das als bekannt ist Halluzination wo Modelle eine faktisch falsche Antwort ausgeben, ohne sich bewusst zu sein, dass die Antwort keine Grundlage in der Realität hat.
Beispielsweise kann ein Benutzer das Modell bitten, die Gedanken von Steve Jobs zum neuesten iPhone zu erklären. Das Modell kann basierend auf seinen Trainingsdaten eine Quote aus dem Nichts generieren.
Vorurteile und begrenztes Wissen
Wie viele andere Algorithmen neigen große Sprachmodelle dazu, die in den Trainingsdaten vorhandenen Verzerrungen zu erben. Da wir uns zunehmend auf LLMs verlassen, um Informationen abzurufen, sollten die Entwickler dieser Modelle Wege finden, die potenziell schädlichen Auswirkungen voreingenommener Antworten zu mindern.
In ähnlicher Weise werden die blinden Flecken der Trainingsdaten des Modells auch das Modell selbst behindern. Derzeit dauert das Trainieren großer Sprachmodelle Monate. Diese Modelle stützen sich auch auf Datensätze, deren Umfang begrenzt ist. Aus diesem Grund hat ChatGPT nur begrenzte Kenntnisse über Ereignisse, die nach 2021 stattgefunden haben.
Zusammenfassung
Große Sprachmodelle haben das Potenzial, die Art und Weise, wie wir mit Technologie und unserer Welt im Allgemeinen interagieren, wirklich zu verändern.
Die riesige Datenmenge, die im Internet verfügbar ist, hat Forschern eine Möglichkeit gegeben, die Komplexität der Sprache zu modellieren. Im Laufe der Zeit scheinen diese Sprachmodelle jedoch ein menschenähnliches Verständnis der Welt, wie sie ist, aufgegriffen zu haben.
Da die Öffentlichkeit beginnt, diesen Sprachmodellen zu vertrauen, dass sie genaue Ergebnisse liefern, finden Forscher und Entwickler bereits Möglichkeiten, Leitplanken hinzuzufügen, damit die Technologie ethisch bleibt.
Was denken Sie, ist die Zukunft von LLMs?
Hinterlassen Sie uns einen Kommentar