Velike nevronske mreže, ki so bile usposobljene za prepoznavanje in generiranje jezika, so v zadnjih letih pokazale izjemne rezultate pri različnih nalogah. GPT-3 je dokazal, da je mogoče velike jezikovne modele (LLM) uporabiti za učenje z nekaj posnetki in doseči odlične rezultate, ne da bi pri tem potrebovali obsežne podatke, specifične za nalogo, ali spreminjanje parametrov modela.
Google, tehnološki velikan Silicijeve doline, je svetovni tehnološki industriji predstavil PaLM ali jezikovni model Pathways kot naslednjo generacijo jezikovnega modela AI. Google je vključil novo Umetna inteligenca arhitekturo v PaLM s strateškimi cilji izboljšati kakovost jezika umetne inteligence.
V tej objavi bomo podrobno preučili algoritem Palm, vključno s parametri, ki se uporabljajo za njegovo usposabljanje, težavo, ki jo rešuje, in še veliko več.
Kaj je Googlov algoritem PaLM?
Pathways Language Model je kaj PaLM pomeni. To je nov algoritem, ki ga je razvil Google, da bi okrepil arhitekturo Pathways AI. Glavni cilj strukture je opraviti milijon različnih dejavnosti hkrati.
Ti vključujejo vse od dešifriranja zapletenih podatkov do deduktivnega sklepanja. PaLM ima sposobnost, da preseže trenutno najsodobnejšo umetno inteligenco, pa tudi ljudi pri jezikovnih in sklepnih nalogah.
To vključuje Few-Shot Learning, ki posnema, kako se ljudje učijo novih stvari in združujejo različne koščke znanja za spopadanje z novimi izzivi, ki jih še nikoli nismo videli, s prednostjo stroja, ki lahko uporabi vse svoje znanje za reševanje novih izzivov; en primer te veščine v PaLMu je njegova sposobnost razložiti šalo, ki je še nikoli ni slišal.
PaLM je pokazal številne prebojne spretnosti pri različnih zahtevnih nalogah, vključno z razumevanjem in ustvarjanjem jezika, večstopenjskimi aktivnostmi, povezanimi z aritmetično kodo, zdravorazumskim sklepanjem, prevajanjem in številnimi drugimi.
Dokazal je svojo sposobnost reševanja zapletenih vprašanj z uporabo večjezičnih sklopov NLP. PaLM lahko uporablja svetovni tehnološki trg za razlikovanje vzrokov in posledic, konceptualnih kombinacij, različnih iger in mnogih drugih stvari.
Prav tako lahko ustvari poglobljene razlage za številne kontekste z uporabo večstopenjskega logičnega sklepanja, globokega jezika, globalnega znanja in drugih tehnik.
Kako je Google razvil algoritem PaLM?
Za Googlovo prebojno zmogljivost v PaLM-u je predvideno, da se poti povečajo do 540 milijard parametrov. Priznan je kot edini model, ki lahko učinkovito in uspešno posploši na številna področja. Pathways pri Googlu je namenjen razvoju porazdeljenega računalništva za pospeševalnike.
PaLM je model transformatorja samo za dekoder, ki je bil usposobljen s sistemom Pathways. Po navedbah Googla je PaLM uspešno dosegel najsodobnejšo zmogljivost za nekaj posnetkov pri več delovnih obremenitvah. PaLM je uporabil sistem Pathways za razširitev usposabljanja na največjo sistemsko konfiguracijo, ki temelji na TPU, prvič znano kot 6144 čipi.
Nabor podatkov za usposabljanje za jezikovni model umetne inteligence je sestavljen iz mešanice angleških in drugih večjezičnih naborov podatkov. Z besediščem »brez izgube« vsebuje visokokakovostne spletne vsebine, razprave, knjige, kodo GitHub, Wikipedijo in še veliko več. Besednjak brez izgub je prepoznan po tem, da zadrži presledke in razčleni znake Unicode, ki niso v besednjaku, na bajte.
PaLM sta razvila Google in Pathways z uporabo standardne arhitekture modela transformatorja in konfiguracije dekoderja, ki je vključevala aktivacijo SwiGLU, vzporedne plasti, vdelave RoPE, skupne vhodne-izhodne vdelave, pozornost na več poizvedb in brez pristranskosti ali besednjaka. PaLM je po drugi strani pripravljen zagotoviti trdno osnovo za Googlov in Pathwaysov jezikovni model AI.
Parametri, ki se uporabljajo za usposabljanje PaLM
Lani je Google predstavil Pathways, en sam model, ki ga je mogoče usposobiti za na tisoče, če ne na milijone stvari – imenovano »arhitektura umetne inteligence naslednje generacije«, saj lahko premaga omejitve obstoječih modelov, da so usposobljeni za samo eno stvar. . Namesto da bi razširili zmogljivosti trenutnih modelov, se novi modeli pogosto gradijo od spodaj navzgor za opravljanje enega samega dela.
Posledično so ustvarili več deset tisoč modelov za več deset tisoč različnih dejavnosti. To je dolgotrajna naloga, ki zahteva veliko sredstev.
Google je prek Pathways dokazal, da lahko en sam model obvladuje različne dejavnosti ter črpa in združuje trenutne talente za hitrejše in učinkovitejše učenje novih nalog.
Multimodalni modeli, ki vključujejo vid, jezikovno razumevanje in slušno obdelavo hkrati, bi lahko bili omogočeni prek poti. Pathways Language Model (PaLM) omogoča usposabljanje enega modela v številnih TPU v4 Podih zahvaljujoč modelu s 540 milijardami parametrov.
PaLM, model Transformerja, ki uporablja samo dekoder, presega najsodobnejšo zmogljivost za nekaj posnetkov v širokem razponu delovnih obremenitev. PaLM se usposablja na dveh podih TPU v4, ki sta povezana prek omrežja podatkovnih centrov (DCN).
Izkorišča tako vzporednost modelov kot podatkov. Raziskovalci so v vsakem Podu za PaLM uporabili 3072 procesorjev TPU v4, ki so bili povezani s 768 gostitelji. Po mnenju raziskovalcev je to največja konfiguracija TPU, ki je bila še razkrita, kar jim omogoča, da povečajo usposabljanje brez uporabe vzporednosti cevovoda.
Obloga cevi je postopek zbiranja navodil iz CPU-ja skozi cevovod na splošno. Plasti modela so razdeljene na faze, ki jih je mogoče obdelovati vzporedno prek vzporednosti cevovodnega modela (ali vzporednosti cevovoda).
Aktivacijski pomnilnik se pošlje v naslednji korak, ko ena stopnja zaključi prehod za mikro paket. Gradienti se nato pošljejo nazaj, ko naslednja stopnja zaključi svoje širjenje nazaj.
PaLM prebojne zmogljivosti
PaLM prikazuje prelomne sposobnosti pri številnih težkih nalogah. Tukaj je nekaj primerov:
1. Ustvarjanje in razumevanje jezika
PaLM je bil na preizkusu 29 različnih NLP nalog v angleščini.
Na osnovi nekaj posnetkov je PaLM 540B presegel prejšnje velike modele, kot so GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla in LaMDA, pri 28 od 29 nalog, vključno z odprto domeno in zaprto knjigo z variantami odgovorov na vprašanja. , naloge za zaprtje in dokončanje stavkov, naloge v slogu Winograda, naloge za razumevanje branja v kontekstu, naloge zdravega razuma, naloge SuperGLUE in naravno sklepanje.
Pri več nalogah BIG-bench PaLM dokazuje odlično interpretacijo naravnega jezika in generacijske sposobnosti. Model lahko na primer razlikuje med vzrokom in posledico, razume konceptualne kombinacije v določenih situacijah in celo ugane film iz emodžija. Čeprav je le 22 % učnega korpusa neangleščine, se PaLM dobro obnese pri večjezičnih merilih NLP, vključno s prevajanjem, poleg nalog NLP v angleščini.
2. Utemeljitev
PaLM združuje velikost modela z verigo razmišljanja, ki spodbuja, da pokaže prebojne sposobnosti pri izzivih sklepanja, ki zahtevajo večstopenjsko aritmetično ali zdravorazumsko sklepanje.
Prejšnji LLM, kot je Gopher, so imeli manj koristi od velikosti modela v smislu izboljšanja zmogljivosti. PaLM 540B z verižnim razmišljanjem se je dobro odrezal na treh aritmetičnih in dveh naborih podatkov za zdravorazumsko razmišljanje.
PaLM presega prejšnji najboljši rezultat 55 %, ki je bil dosežen s fino nastavitvijo modela GPT-3 175B z naborom za usposabljanje 7500 problemov in ga kombiniranjem z zunanjim kalkulatorjem in preveriteljem za rešitev 58 odstotkov težav v GSM8K, a merilo uspešnosti na tisoče težkih matematičnih vprašanj na osnovni šoli z uporabo 8-metrskih pozivov.
Ta novi rezultat je še posebej omembe vreden, saj se približuje 60-odstotnemu povprečju ovir, s katerimi se soočajo 9-12-letniki. Prav tako se lahko odzove na izvirne šale, ki niso na voljo na internetu.
3. Generiranje kode
Pokazalo se je tudi, da se LLM dobro obnese pri nalogah kodiranja, vključno z generiranjem kode iz opisa naravnega jezika (besedilo v kodo), prevajanjem kode med jeziki in reševanjem napak pri prevajanju. Kljub temu, da ima v podatkovnem nizu pred usposabljanjem le 5 % kode, se PaLM 540B dobro obnese tako pri kodiranju kot pri nalogah naravnega jezika v enem samem modelu.
Njegova zmogljivost v nekaj posnetkih je neverjetna, saj se ujema s fino nastavljenim Codexom 12B, medtem ko trenira s 50-krat manj kode Python. Ta ugotovitev potrjuje predhodne ugotovitve, da so lahko večji modeli bolj vzorčno učinkoviti kot manjši modeli, ker lahko učinkoviteje prenašajo učenje iz več programskih jezikov in podatke v preprostem jeziku.
zaključek
PaLM prikazuje zmogljivost sistema Pathways, da se poveča na tisoče pospeševalnih procesorjev prek dveh podov TPU v4 z učinkovitim usposabljanjem modela s 540 milijardami parametrov z dobro preučenim, dobro uveljavljenim receptom modela Transformerja, ki je namenjen samo dekoderju.
S premikanjem meja merila modela doseže prebojno zmogljivost z nekaj posnetki v številnih izzivih obdelave naravnega jezika, sklepanja in kodiranja.
Pustite Odgovori