Grouss neural Netzwierker, déi fir Sproocherkennung a Generatioun trainéiert goufen, hunn an de leschte Joeren aussergewéinlech Resultater an enger Rei vun Aufgaben bewisen. GPT-3 huet bewisen datt grouss Sproochmodeller (LLMs) fir e puer Shot Léieren benotzt kënne ginn an exzellent Resultater kréien ouni extensiv Aufgabspezifesch Donnéeën ze erfuerderen oder Modellparameter z'änneren.
Google, den Silicon Valley Tech Behemoth, huet PaLM, oder Pathways Language Model, an d'weltwäit Tech Industrie als déi nächst Generatioun AI-Sprooch Modell agefouert. Google huet en neien integréiert Kënschtlech Intelligenz Architektur an PaLM mat strategesche Ziler fir d'Qualitéit vum AI-Sproochmodell ze verbesseren.
An dësem Post wäerte mir de Palm Algorithmus am Detail ënnersichen, dorënner d'Parameteren déi benotzt gi fir et ze trainéieren, d'Thema dat et léist a vill méi.
Wat ass Google's PaLM Algorithmus?
Pathways Language Model ass wat PALM steet fir. Dëst ass en neien Algorithmus entwéckelt vu Google fir d'Pathways AI Architektur ze stäerken. D'Haaptziel vun der Struktur ass eng Millioun ënnerschiddlech Aktivitéiten gläichzäiteg ze maachen.
Dëst beinhalt alles vun der Entschlësselung vun komplexen Donnéeën bis zu deduktiv Begrënnung. PaLM huet d'Fäegkeet den aktuellen AI-State-of-the-Art wéi och Mënschen a Sprooch- a Begrënnungsaufgaben z'iwwertreffen.
Dëst beinhalt d'Few-Shot Learning, déi mimics wéi d'Mënschen nei Saache léieren a verschidde Stécker vu Wëssen kombinéiere fir nei Erausfuerderungen unzegoen, déi nach ni gesinn hunn, mam Virdeel vun enger Maschinn déi all seng Wëssen benotze kann fir nei Erausfuerderungen ze léisen; e Beispill vun dëser Fäegkeet am PaLM ass seng Fäegkeet fir e Witz z'erklären, deen et nach ni héieren huet.
PaLM huet vill Duerchbroch Fäegkeeten op enger Vielfalt vun usprochsvollen Aufgaben bewisen, dorënner Sproochverständnis a Schafung, Multistep arithmetesch Code-relatéiert Aktivitéiten, gemeinsame Sënn Begrënnung, Iwwersetzung, a vill méi.
Et huet seng Fäegkeet bewisen fir komplizéiert Themen ze léisen mat multilingualen NLP Sets. PaLM ka vum weltwäiten Techmaart benotzt ginn fir Ursaach an Effekt ze differenzéieren, konzeptuell Kombinatiounen, verschidde Spiller a vill aner Saachen.
Et kann och déif Erklärunge fir vill Kontexter generéieren mat multistep logescher Inferenz, déif Sprooch, globalt Wëssen an aner Techniken.
Wéi huet Google de PaLM Algorithmus entwéckelt?
Fir dem Google seng Duerchbroch Leeschtung am PaLM sinn Weeër geplangt fir bis zu 540 Milliarde Parameteren ze skaléieren. Et gëtt unerkannt als deen eenzege Modell deen effizient an effektiv iwwer vill Beräicher generaliséiere kann. Pathways bei Google ass gewidmet fir verdeelt Informatik fir Beschleuniger z'entwéckelen.
PaLM ass en Decoder-nëmmen Transformatormodell dee mat dem Pathways System trainéiert gouf. PaLM huet erfollegräich state-of-the-art puer-Schéiss Leeschtung iwwer e puer Aarbechtslaaschten erreecht, laut Google. PaLM huet de Pathways System benotzt fir Training op déi gréissten TPU-baséiert Systemkonfiguratioun auszebauen, bekannt als 6144 Chips fir d'éischte Kéier.
Eng Formatiounsdatei fir den AI-Sproochmodell besteet aus enger Mëschung vun Engleschen an aner méisproocheg Datesätz. Mat engem "lossless" Vokabulär enthält et héichqualitativ Webinhalt, Diskussiounen, Bicher, GitHub Code, Wikipedia, a vill méi. Verloschtlos Vokabulär gëtt unerkannt fir Wäissraum ze behalen an Unicode Charaktere ze briechen, déi net am Vokabulär an Bytes sinn.
PaLM gouf vu Google a Pathways entwéckelt mat enger Standard Transformatormodellarchitektur an enger Decoderkonfiguratioun déi SwiGLU Aktivatioun, Parallelschichten, RoPE Embeddings, gedeelt Input-Output Embeddings, Multi-Query Opmierksamkeet, a keng Biases oder Vokabulär enthält. PaLM, op der anerer Säit, ass prett fir eng zolidd Basis fir Google a Pathways 'AI-Sproochmodell ze bidden.
Parameter benotzt fir PaLM ze trainéieren
D'lescht Joer huet Google Pathways lancéiert, en eenzege Modell dee trainéiert ka ginn fir Dausende, wann net Millioune Saachen ze maachen - déi "nächst Generatioun AI Architektur" genannt gëtt, well et existent Modeller d'Begrenzunge vun trainéiert gëtt fir nëmmen eng Saach ze iwwerwannen. . Anstatt d'Kapazitéite vun den aktuellen Modeller auszebauen, ginn nei Modeller dacks vun ënnen erop gebaut fir eng eenzeg Aarbecht ze erreechen.
Als Resultat hunn si Zéngdausende vu Modeller fir Zéngdausende vu verschiddenen Aktivitéiten erstallt. Dëst ass eng Zäit-opwänneg a Ressource-intensiv Aufgab.
Google huet iwwer Pathways bewisen datt en eenzege Modell eng Vielfalt vun Aktivitéiten handhaben kann an aktuell Talenter zéien an kombinéiere fir nei Aufgaben méi séier an effizient ze léieren.
Multimodal Modeller déi Visioun, sproochlech Verständnis, an auditive Veraarbechtung all zur selwechter Zäit enthalen kënnen duerch Weeër aktivéiert ginn. Pathways Language Model (PaLM) erlaabt d'Ausbildung vun engem eenzege Modell iwwer villen TPU v4 Pods dank sengem 540 Milliarde Parametermodell.
PaLM, en dichten Decoder-nëmmen Transformer Modell, iwwerhëlt déi modernst puer Shot Leeschtung iwwer eng breet Palette vun Aarbechtslaaschten. PaLM gëtt op zwee TPU v4 Pods trainéiert, déi iwwer en Datacenternetz (DCN) verlinkt sinn.
Et profitéiert souwuel vum Modell wéi och vum Dateparallelismus. D'Fuerscher hunn 3072 TPU v4 Prozessoren an all Pod fir PaLM beschäftegt, déi mat 768 Hosten verbonne waren. Laut de Fuerscher ass dëst déi gréissten TPU Konfiguratioun bis elo opgedeckt, wat hinnen erlaabt Training ze skaléieren ouni Pipeline Parallelismus ze benotzen.
Pipe Fudder ass de Prozess fir Instruktioune vun der CPU duerch eng Pipeline am Allgemengen ze sammelen. D'Schichte vum Modell sinn a Phasen opgedeelt, déi parallel iwwer Pipeline Model Parallelismus (oder Pipeline Parallelismus) veraarbecht kënne ginn.
D'Aktivéierungsspeicher gëtt op den nächste Schrëtt geschéckt wann eng Etapp de Forward Pass fir e Mikro-Batch ofgeschloss huet. D'Gradiente ginn dann no hannen geschéckt wann déi folgend Etapp seng Réckverbreedung ofgeschloss huet.
PaLM Breakthrough Capabilities
PaLM weist banebriechend Fäegkeeten an enger Rei vu schwieregen Aufgaben. Hei sinn e puer Beispiller:
1. Sprooch Schafung a Versteesdemech
PaLM gouf op 29 verschidden NLP Aufgaben op Englesch getest.
Op e puer Schéissbasis huet de PaLM 540B méi wéi fréier grouss Modeller wéi GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, a LaMDA op 28 vun 29 Aufgaben iwwerholl, dorënner Open-Domain zougemaach-Buch Variant Fro-Äntwert Aufgaben , Cloze a Saz-Fäerdegstellung Aufgaben, Winograd-Stil Aufgaben, am Kontext Liesverständnis Aufgaben, Commonsense Begrënnung Aufgaben, SuperGLUE Aufgaben, an natierlech Inferenz.
Op e puer BIG-Bänk Aufgaben weist PaLM exzellent natierlech Sproochinterpretatioun a Generatiounsfäegkeeten. Zum Beispill kann de Modell tëscht Ursaach an Effekt z'ënnerscheeden, konzeptuelle Kombinatiounen a bestëmmte Situatiounen verstoen, a souguer de Film vun engem Emoji roden. Och wann just 22% vum Trainingskorpus net englesch ass, mécht PaLM gutt op méisproocheg NLP Benchmarks, dorënner Iwwersetzung, nieft englesch NLP Aufgaben.
2. Begrënnung
PaLM vermëscht Modellgréisst mat Kette-of-Thought Ufro fir Duerchbrochfäegkeeten ze demonstréieren iwwer Begrënnungsfuerderungen déi Multistep Arithmetik oder Commonsense Begrënnung erfuerderen.
Virdrun LLMs, wéi Gopher, hu manner vun der Modellgréisst profitéiert wat d'Performance verbessert. De PaLM 540B mat Kette-of-Thought Ufro huet gutt op dräi arithmeteschen an zwee Commonsense Denken Datesets gemaach.
PaLM iwwerhëlt de fréiere beschte Score vu 55%, dee kritt gouf andeems de GPT-3 175B Modell mat engem Trainingsset vu 7500 Probleemer feinstëmmt an et mat engem externen Rechner a Verifizéierer kombinéiert fir 58 Prozent vun de Probleemer am GSM8K ze léisen, a Benchmark vun Dausende vu schwéiere Schoulniveau Mathematik Froen mat 8-Schéiss Ufroen.
Dësen neie Score ass besonnesch bemierkenswäert well et den 60% Duerchschnëtt vun Hindernisser ugeet, déi 9-12-Joer al erlieft hunn. Et kann och op originell Witzer reagéieren déi net um Internet verfügbar sinn.
3. Code Generatioun
LLMs goufen och gewisen fir gutt a Kodéierungsaufgaben auszeféieren, dorënner Generéiere vu Code aus enger natierlecher Sproochbeschreiwung (Text-zu-Code), Iwwersetzungscode tëscht Sproochen a Kompiléierungsfehler léisen. Trotz nëmmen 5% Code am Pre-Training Dataset, mécht PaLM 540B gutt op béid Kodéierungs- an natierlech Sproochen Aufgaben an engem eenzege Modell.
Seng puer Shot Leeschtung ass onheemlech, well et entsprécht dem fein gestëmmte Codex 12B wärend Training mat 50 Mol manner Python Code. Dës Entdeckung ënnerstëtzt mat fréiere Erkenntnisser datt méi grouss Modeller méi Probeeffizient kënne sinn wéi méi kleng Modeller well se méi effektiv Léiere vu multiple kënne transferéieren programméiere Sproochen an Einfache Sprooch Daten.
Konklusioun
PaLM weist d'Kapazitéit vum Pathways System fir op Dausende vu Beschleuniger Prozessoren iwwer zwee TPU v4 Pods ze skaléieren andeems se effektiv e 540 Milliarde Parametermodell mat engem gutt studéierten, gutt etabléierten Rezept vun engem dichten Decoder-nëmmen Transformer Modell trainéieren.
Et erreecht Duerchbroch e puer Shot-Performance iwwer eng Rei vun natierleche Sproochveraarbechtung, Begrënnung a Kodéierungserausfuerderungen andeems d'Grenze vun der Modellskala dréckt.
Hannerlooss eng Äntwert