Große neuronale Netze, die auf Spracherkennung und -generierung trainiert wurden, haben in den letzten Jahren bei einer Vielzahl von Aufgaben hervorragende Ergebnisse gezeigt. GPT-3 hat bewiesen, dass große Sprachmodelle (LLMs) für das Lernen in wenigen Schüssen verwendet werden können und hervorragende Ergebnisse erzielen, ohne dass umfangreiche aufgabenspezifische Daten erforderlich sind oder Modellparameter geändert werden müssen.
Google, der Tech-Gigant aus dem Silicon Valley, hat PaLM oder Pathways Language Model als KI-Sprachmodell der nächsten Generation in der weltweiten Tech-Industrie eingeführt. Google hat eine neue eingebaut künstliche Intelligenz Architektur in PaLM mit dem strategischen Ziel, die Qualität des KI-Sprachmodells zu verbessern.
In diesem Beitrag werden wir den Palm-Algorithmus im Detail untersuchen, einschließlich der Parameter, die zum Trainieren verwendet werden, des Problems, das er löst, und vieles mehr.
Was ist PaLM-Algorithmus von Google?
Das Pathways-Sprachmodell ist was Palme steht für. Dies ist ein neuer Algorithmus, der von Google entwickelt wurde, um die Pathways-KI-Architektur zu stärken. Das Hauptziel der Struktur ist es, eine Million verschiedene Aktivitäten gleichzeitig auszuführen.
Dazu gehört alles von der Entschlüsselung komplexer Daten bis hin zu schlussfolgerndem Denken. PaLM hat die Fähigkeit, den aktuellen KI-Stand der Technik sowie Menschen in Sprach- und Denkaufgaben zu übertreffen.
Dazu gehört Few-Shot Learning, das nachahmt, wie Menschen neue Dinge lernen und verschiedene Wissenshäppchen kombinieren, um neue Herausforderungen zu meistern, die noch nie zuvor gesehen wurden, mit dem Vorteil einer Maschine, die ihr gesamtes Wissen nutzen kann, um neue Herausforderungen zu lösen; Ein Beispiel für diese Fähigkeit in PaLM ist die Fähigkeit, einen Witz zu erklären, den es noch nie zuvor gehört hat.
PaLM demonstrierte viele bahnbrechende Fähigkeiten bei einer Vielzahl von herausfordernden Aufgaben, darunter Sprachverständnis und -erstellung, Aktivitäten im Zusammenhang mit mehrstufigen arithmetischen Codes, gesundem Menschenverstand, Übersetzung und vielem mehr.
Es hat seine Fähigkeit unter Beweis gestellt, komplizierte Probleme mit mehrsprachigen NLP-Sets zu lösen. PaLM kann vom weltweiten Technologiemarkt verwendet werden, um Ursache und Wirkung, konzeptionelle Kombinationen, verschiedene Spiele und viele andere Dinge zu unterscheiden.
Es kann auch detaillierte Erklärungen für viele Kontexte generieren, indem es mehrstufige logische Schlussfolgerungen, tiefe Sprache, globales Wissen und andere Techniken verwendet.
Wie hat Google den PaLM-Algorithmus entwickelt?
Für die bahnbrechende Leistung von Google in PaLM sollen Pfade auf bis zu 540 Milliarden Parameter skaliert werden. Es ist als das einzige Modell anerkannt, das effizient und effektiv über zahlreiche Bereiche verallgemeinern kann. Pathways bei Google widmet sich der Entwicklung von Distributed Computing für Beschleuniger.
PaLM ist ein reines Decoder-Transformatormodell, das mit dem Pathways-System trainiert wurde. Laut Google hat PaLM über mehrere Workloads hinweg erfolgreich eine hochmoderne Leistung mit wenigen Aufnahmen erreicht. PaLM hat das Pathways-System verwendet, um das Training erstmals auf die größte TPU-basierte Systemkonfiguration auszudehnen, die erstmals als 6144-Chips bekannt ist.
Ein Trainingsdatensatz für das KI-Sprachmodell besteht aus einer Mischung aus englischen und anderen mehrsprachigen Datensätzen. Mit einem „verlustfreien“ Vokabular enthält es hochwertige Webinhalte, Diskussionen, Bücher, GitHub-Code, Wikipedia und vieles mehr. Das verlustfreie Vokabular wird dafür erkannt, Leerzeichen beizubehalten und Unicode-Zeichen, die nicht im Vokabular enthalten sind, in Bytes aufzuteilen.
PaLM wurde von Google und Pathways unter Verwendung einer standardmäßigen Transformatormodellarchitektur und einer Decoderkonfiguration entwickelt, die SwiGLU-Aktivierung, parallele Schichten, RoPE-Einbettungen, gemeinsame Eingabe-Ausgabe-Einbettungen, Aufmerksamkeit für mehrere Abfragen und keine Vorurteile oder Vokabular umfasste. PaLM hingegen ist bereit, eine solide Grundlage für das KI-Sprachmodell von Google und Pathways zu schaffen.
Parameter zum Trainieren von PaLM
Letztes Jahr hat Google Pathways auf den Markt gebracht, ein einzelnes Modell, das darauf trainiert werden kann, Tausende, wenn nicht Millionen von Dingen zu tun – das als „KI-Architektur der nächsten Generation“ bezeichnet wird, da es die Einschränkungen bestehender Modelle überwinden kann, nur auf eine Sache trainiert zu werden . Anstatt die Fähigkeiten aktueller Modelle zu erweitern, werden neue Modelle oft von Grund auf neu aufgebaut, um eine einzelne Aufgabe zu erfüllen.
Als Ergebnis haben sie Zehntausende von Modellen für Zehntausende verschiedener Aktivitäten erstellt. Dies ist eine zeitaufwändige und ressourcenintensive Aufgabe.
Google hat über Pathways bewiesen, dass ein einziges Modell eine Vielzahl von Aktivitäten bewältigen und auf aktuelle Talente zurückgreifen und kombinieren kann, um neue Aufgaben schneller und effizienter zu lernen.
Multimodale Modelle, die gleichzeitig Sehen, Sprachverständnis und auditive Verarbeitung umfassen, könnten durch Pfade ermöglicht werden. Das Pathways Language Model (PaLM) ermöglicht dank seines Modells mit 4 Milliarden Parametern das Training eines einzelnen Modells über zahlreiche TPU v540-Pods hinweg.
PaLM, ein dichtes Transformer-Modell, das nur Decoder enthält, übertrifft die hochmoderne Leistung mit wenigen Aufnahmen bei einer Vielzahl von Workloads. PaLM wird auf zwei TPU v4 Pods trainiert, die über ein Rechenzentrumsnetzwerk (DCN) verbunden sind.
Es nutzt sowohl die Modell- als auch die Datenparallelität. Die Forscher setzten 3072 TPU v4-Prozessoren in jedem Pod für PaLM ein, die mit 768 Hosts verbunden waren. Laut den Forschern ist dies die größte bisher offenbarte TPU-Konfiguration, die es ihnen ermöglicht, das Training ohne den Einsatz von Pipeline-Parallelität zu skalieren.
Rohrauskleidung ist im Allgemeinen der Prozess des Sammelns von Anweisungen von der CPU durch eine Pipeline. Die Schichten des Modells sind in Phasen unterteilt, die über Pipeline-Modell-Parallelität (oder Pipeline-Parallelität) parallel verarbeitet werden können.
Der Aktivierungsspeicher wird zum nächsten Schritt gesendet, wenn eine Stufe den Vorwärtsdurchlauf für einen Mikrostapel abschließt. Die Gradienten werden dann nach hinten gesendet, wenn die folgende Stufe ihre Rückwärtsausbreitung abschließt.
PaLM Durchbruchfähigkeiten
PaLM zeigt bahnbrechende Fähigkeiten in einer Reihe von schwierigen Aufgaben. Hier sind einige Beispiele:
1. Sprachschöpfung und -verständnis
PaLM wurde an 29 verschiedenen NLP-Aufgaben in englischer Sprache getestet.
Auf Basis weniger Schüsse übertraf PaLM 540B frühere große Modelle wie GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla und LaMDA bei 28 von 29 Aufgaben, einschließlich Open-Domain-Closed-Book-Varianten-Frage-Antwort-Aufgaben , Lückentext- und Satzvervollständigungsaufgaben, Aufgaben im Winograd-Stil, Aufgaben zum kontextbezogenen Leseverständnis, Aufgaben zum gesunden Menschenverstand, SuperGLUE-Aufgaben und natürliche Schlussfolgerungen.
Bei mehreren BIG-Bench-Aufgaben demonstriert PaLM hervorragende Fähigkeiten zur Interpretation und Generierung natürlicher Sprache. So kann das Modell beispielsweise Ursache und Wirkung unterscheiden, begriffliche Kombinationen in bestimmten Situationen verstehen und anhand eines Emojis sogar den Film erraten. Auch wenn nur 22 % des Trainingskorpus nicht englischsprachig sind, schneidet PaLM zusätzlich zu den englischen NLP-Aufgaben auch bei mehrsprachigen NLP-Benchmarks, einschließlich Übersetzungen, gut ab.
2. Argumentation
PaLM verbindet Modellgröße mit Denkanstößen, um bahnbrechende Fähigkeiten bei logischen Herausforderungen zu demonstrieren, die mehrstufige Arithmetik oder vernünftiges Denken erfordern.
Frühere LLMs wie Gopher profitierten in Bezug auf die Leistungssteigerung weniger von der Modellgröße. Der PaLM 540B mit Gedankenketten-Eingabeaufforderung schnitt bei drei arithmetischen und zwei Datensätzen zum gesunden Menschenverstand gut ab.
PaLM übertrifft die bisher beste Punktzahl von 55 %, die durch die Feinabstimmung des GPT-3 175B-Modells mit einem Trainingssatz von 7500 Problemen und der Kombination mit einem externen Rechner und Verifizierer erzielt wurde, um 58 % der Probleme in GSM8K zu lösen, a Benchmark von Tausenden von schwierigen mathematischen Fragen auf Grundschulniveau mit 8-Schuss-Aufforderung.
Diese neue Punktzahl ist besonders bemerkenswert, da sie sich dem 60 %-Durchschnitt der Hindernisse nähert, die 9- bis 12-Jährige erleben. Es kann auch auf originelle Witze reagieren, die nicht im Internet verfügbar sind.
3. Codegenerierung
LLMs haben sich auch bei Codierungsaufgaben bewährt, einschließlich der Generierung von Code aus einer Beschreibung in natürlicher Sprache (Text-zu-Code), der Übersetzung von Code zwischen Sprachen und der Behebung von Kompilierungsfehlern. Obwohl der Pre-Training-Datensatz nur 5 % Code enthält, leistet PaLM 540B sowohl bei Codierungs- als auch bei Aufgaben in natürlicher Sprache in einem einzigen Modell eine gute Leistung.
Seine Leistung bei wenigen Schüssen ist unglaublich, da es mit dem fein abgestimmten Codex 12B übereinstimmt, während es mit 50-mal weniger Python-Code trainiert. Diese Erkenntnis stützt sich auf frühere Erkenntnisse, dass größere Modelle stichprobeneffizienter sein können als kleinere Modelle, da sie das Lernen aus mehreren effektiver übertragen können Programmiersprachen und Klartextdaten.
Zusammenfassung
PaLM zeigt die Fähigkeit des Pathways-Systems, über zwei TPU v4-Pods auf Tausende von Beschleunigerprozessoren zu skalieren, indem ein 540-Milliarden-Parameter-Modell mit einem gut untersuchten, gut etablierten Rezept eines dichten Decoder-Only-Transformer-Modells effektiv trainiert wird.
Es erreicht eine bahnbrechende Leistung mit wenigen Aufnahmen bei einer Reihe von Herausforderungen bei der Verarbeitung natürlicher Sprache, beim Denken und beim Codieren, indem es die Grenzen des Modellmaßstabs erweitert.
Hinterlassen Sie uns einen Kommentar