Rețelele neuronale mari care au fost antrenate pentru recunoașterea și generarea limbii au demonstrat rezultate remarcabile într-o varietate de sarcini în ultimii ani. GPT-3 a dovedit că modelele de limbaj mari (LLM) pot fi utilizate pentru învățarea în câteva momente și pentru a obține rezultate excelente fără a necesita date extinse specifice sarcinii sau modificarea parametrilor modelului.
Google, gigantul tehnologic din Silicon Valley, a introdus PaLM, sau Pathways Language Model, în industria tehnologică din întreaga lume ca model de limbă AI de generație următoare. Google a încorporat un nou inteligență artificială arhitectura în PaLM cu obiective strategice de a îmbunătăți calitatea modelului de limbaj AI.
În această postare, vom examina în detaliu algoritmul Palm, inclusiv parametrii utilizați pentru a-l antrena, problema pe care o rezolvă și multe altele.
Ce este Algoritmul Google PaLM?
Pathways Language Model este ceea ce Palmier reprezintă. Acesta este un nou algoritm dezvoltat de Google pentru a consolida arhitectura Pathways AI. Scopul principal al structurii este de a face un milion de activități distincte simultan.
Acestea includ totul, de la descifrarea datelor complexe până la raționamentul deductiv. PaLM are capacitatea de a depăși stadiul actual al AI, precum și oamenii în sarcinile de limbaj și raționament.
Aceasta include Few-Shot Learning, care imită modul în care oamenii învață lucruri noi și combină diverse părți de cunoștințe pentru a aborda noi provocări care nu au mai fost văzute până acum, cu beneficiul unei mașini care își poate folosi toate cunoștințele pentru a rezolva noi provocări; un exemplu al acestei abilități în PaLM este capacitatea sa de a explica o glumă pe care nu a mai auzit-o până acum.
PaLM a demonstrat multe abilități inovatoare pe o varietate de sarcini provocatoare, inclusiv înțelegerea și crearea limbii, activități legate de codul aritmetic în mai mulți pași, raționament de bun simț, traducere și multe altele.
Și-a demonstrat capacitatea de a rezolva probleme complicate folosind seturi NLP multilingve. PaLM poate fi folosit de piața mondială de tehnologie pentru a diferenția cauza și efectul, combinațiile conceptuale, jocurile distincte și multe alte lucruri.
De asemenea, poate genera explicații aprofundate pentru multe contexte folosind inferență logică în mai mulți pași, limbaj profund, cunoștințe globale și alte tehnici.
Cum a dezvoltat Google algoritmul PaLM?
Pentru performanța revoluționară a Google în PaLM, căile sunt programate să se extindă până la 540 de miliarde de parametri. Este recunoscut ca singurul model care se poate generaliza eficient și eficient în numeroase domenii. Pathways at Google este dedicat dezvoltării de calcul distribuit pentru acceleratoare.
PaLM este un model de transformator numai pentru decodor care a fost antrenat folosind sistemul Pathways. Potrivit Google, PaLM a atins cu succes o performanță de ultimă generație în câteva sarcini în mai multe sarcini de lucru. PaLM a folosit sistemul Pathways pentru a extinde antrenamentul la cea mai mare configurație de sistem bazată pe TPU, cunoscută ca cipuri 6144 pentru prima dată.
Un set de date de antrenament pentru modelul de limbă AI este alcătuit dintr-un amestec de seturi de date în engleză și alte seturi multilingve. Cu un vocabular „fără pierderi”, conține conținut web de înaltă calitate, discuții, cărți, cod GitHub, Wikipedia și multe altele. Vocabularul fără pierderi este recunoscut pentru păstrarea spațiilor albe și pentru împărțirea caracterelor Unicode care nu sunt în vocabular în octeți.
PaLM a fost dezvoltat de Google și Pathways utilizând o arhitectură standard de model de transformator și o configurație de decodor care a inclus activarea SwiGLU, straturi paralele, încorporare RoPE, încorporare partajată de intrare-ieșire, atenție cu mai multe interogări și fără prejudecăți sau vocabular. PaLM, pe de altă parte, este gata să ofere o bază solidă pentru modelul de limbaj AI al Google și Pathways.
Parametrii utilizați pentru a antrena PaLM
Anul trecut, Google a lansat Pathways, un model unic care poate fi antrenat pentru a face mii, dacă nu milioane, de lucruri – denumit „arhitectura AI de generația următoare”, deoarece poate depăși limitările modelelor existente de a fi instruiți să facă un singur lucru. . În loc să extindă capacitățile modelelor actuale, modelele noi sunt adesea construite de jos în sus pentru a realiza o singură lucrare.
Drept urmare, au creat zeci de mii de modele pentru zeci de mii de activități diferite. Aceasta este o sarcină consumatoare de timp și de resurse.
Google a dovedit prin intermediul Pathways că un singur model ar putea gestiona o varietate de activități și poate folosi și combina talentele actuale pentru a învăța noi sarcini mai rapid și mai eficient.
Modelele multimodale care includ viziunea, înțelegerea lingvistică și procesarea auditivă, toate în același timp, ar putea fi activate prin căi. Pathways Language Model (PaLM) permite antrenamentul unui singur model în numeroase poduri TPU v4 datorită modelului său cu 540 de miliarde de parametri.
PaLM, un model Transformer dens, numai cu decodor, depășește performanța de ultimă generație, la câteva lovituri, într-o gamă largă de sarcini de lucru. PaLM este instruit pe două poduri TPU v4 care sunt conectate printr-o rețea de centre de date (DCN).
Profită atât de paralelismul modelului, cât și al datelor. Cercetătorii au folosit 3072 de procesoare TPU v4 în fiecare Pod pentru PaLM, care au fost conectate la 768 de gazde. Potrivit cercetătorilor, aceasta este cea mai mare configurație TPU dezvăluită până acum, permițându-le să escaladeze antrenamentul fără a utiliza paralelismul conductelor.
Căptușeala conductei este procesul de colectare a instrucțiunilor de la CPU printr-o conductă în general. Straturile modelului sunt împărțite în faze care pot fi procesate în paralel prin paralelismul modelului conductei (sau paralelismului conductei).
Memoria de activare este trimisă la pasul următor când o etapă completează trecerea înainte pentru un micro-lot. Gradienții sunt apoi trimiși înapoi când următoarea etapă își finalizează propagarea înapoi.
Capabilități inovatoare PaLM
PaLM afișează abilități inovatoare într-o serie de sarcini dificile. Iată câteva exemple:
1. Crearea și înțelegerea limbajului
PaLM a fost pus la încercare pe 29 de sarcini diferite NLP în limba engleză.
Pe o bază de câteva fotografii, PaLM 540B a depășit modelele mari anterioare, cum ar fi GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla și LaMDA în 28 din 29 de sarcini, inclusiv sarcini de răspuns la întrebări cu variante de carte închisă în domeniu deschis , sarcini de închidere și de completare a propozițiilor, sarcini în stil Winograd, sarcini de înțelegere a lecturii în context, sarcini de raționament de bun simț, sarcini SuperGLUE și inferență naturală.
Pe mai multe sarcini BIG-bench, PaLM demonstrează abilități excelente de interpretare a limbajului natural și de generare. De exemplu, modelul poate distinge între cauză și efect, poate înțelege combinații conceptuale în anumite situații și chiar poate ghici filmul dintr-un emoji. Chiar dacă doar 22% din corpus de instruire este non-engleză, PaLM are rezultate bune la benchmark-urile NLP multilingve, inclusiv traducerea, pe lângă sarcinile NLP în limba engleză.
2. Raționament
PaLM îmbină dimensiunea modelului cu îndemnarea în lanț de gândire pentru a demonstra abilități inovatoare în probleme de raționament care necesită aritmetică în mai mulți pași sau raționament de bun simț.
LLM-urile anterioare, cum ar fi Gopher, au beneficiat mai puțin de dimensiunea modelului în ceea ce privește îmbunătățirea performanței. PaLM 540B cu îndemnuri de lanț de gândire s-a descurcat bine pe trei seturi de date aritmetice și două seturi de gândire de bun simț.
PaLM depășește cel mai bun scor anterior de 55%, care a fost obținut prin reglarea fină a modelului GPT-3 175B cu un set de antrenament de 7500 de probleme și combinarea acestuia cu un calculator extern și un verificator pentru a rezolva 58% din problemele din GSM8K, un etalon de mii de întrebări dificile de matematică la nivel de școală folosind promptarea cu 8 lovituri.
Acest nou scor este deosebit de remarcabil, deoarece se apropie de media de 60% a obstacolelor întâmpinate de copiii de 9-12 ani. De asemenea, poate răspunde la glumele originale care nu sunt disponibile pe internet.
3. Generarea codului
De asemenea, s-a demonstrat că LLM-urile funcționează bine în sarcinile de codificare, inclusiv generarea de cod dintr-o descriere în limbaj natural (text-to-code), traducerea codului între limbi și rezolvarea erorilor de compilare. În ciuda faptului că are doar 5% cod în setul de date de pre-antrenare, PaLM 540B funcționează bine atât la sarcinile de codare, cât și în limbaj natural într-un singur model.
Performanța sa la câteva lovituri este incredibilă, deoarece se potrivește cu Codex 12B reglat fin în timp ce se antrenează cu de 50 de ori mai puțin cod Python. Această constatare confirmă descoperirile anterioare conform cărora modelele mai mari pot fi mai eficiente în eșantionare decât modelele mai mici, deoarece pot transfera mai eficient învățarea de la mai multe limbaje de programare și date în limbaj simplu.
Concluzie
PaLM arată capacitatea sistemului Pathways de a se extinde la mii de procesoare acceleratoare pe două poduri TPU v4 prin antrenarea eficientă a unui model de parametri de 540 de miliarde cu o rețetă bine studiată și bine stabilită a unui model Transformer dens, doar cu decodor.
Obține performanțe revoluționare la câteva lovituri într-o serie de provocări de procesare a limbajului natural, raționament și codificare, depășind limitele scarii modelului.
Lasă un comentariu