Grandi rete neurali chì sò stati furmati per a ricunniscenza è a generazione di a lingua anu dimustratu risultati eccezziunali in una varietà di attività in l'ultimi anni. GPT-3 hà dimustratu chì i grandi mudelli di lingua (LLM) puderanu esse aduprati per l'apprendimentu à pocu pressu è ottene risultati eccellenti senza avè bisognu di dati estensivi specifichi per u compitu o di cambià i parametri di mudellu.
Google, u gigante tecnologicu di Silicon Valley, hà introduttu PaLM, o Pathways Language Model, à l'industria tecnologica mundiale cum'è u mudellu di lingua AI di prossima generazione. Google hà incorporatu un novu ntilliggenza artificiali architettura in PaLM cù scopi strategichi per migliurà a qualità di u mudellu di lingua AI.
In questu post, esamineremu l'algoritmu Palm in detail, cumpresi i paràmetri utilizati per furmà, u prublema chì risolve, è assai più.
Chì ghjè L'algoritmu PaLM di Google?
Pathways Language Model hè ciò chì PALM sta per. Questu hè un novu algoritmu sviluppatu da Google per rinfurzà l'architettura Pathways AI. U scopu principale di a struttura hè di fà un milione di attività distinte à una volta.
Questi includenu tuttu da a decifrazione di dati cumplessi à u ragiunamentu deductive. PaLM hà a capacità di superà l'attuali AI state-of-the-art è ancu l'omu in u travagliu di lingua è ragiunamentu.
Questu include l'apprendimentu di Pochi-Shot, chì imita cumu l'omu amparanu e cose novi è combina diversi pezzi di cunniscenze per affruntà novi sfidi chì ùn anu mai vistu prima, cù u benefiziu di una macchina chì pò aduprà tutte e so cunniscenze per risolve novi sfide; un esempiu di sta cumpetenza in PaLM hè a so capacità di spiegà un scherzu chì ùn hà mai intesu prima.
PaLM hà dimustratu parechje cumpetenze avanzate nantu à una varietà di compiti sfida, cumprese a comprensione è a creazione di lingua, attività di codice aritmeticu multistep, ragiunamentu di sensu cumunu, traduzzione, è assai di più.
Hà dimustratu a so capacità di risolve prublemi complicati utilizendu setti NLP multilingue. PaLM pò esse usatu da u mercatu tecnulugicu mundiale per diferenze causa è effettu, cumminazzioni cuncettuali, ghjochi distinti, è assai altre cose.
Pò ancu generà spiegazioni approfondite per parechji cuntesti utilizendu inferenza logica multistep, lingua profonda, cunniscenza globale è altre tecniche.
Cumu Google hà sviluppatu l'algoritmu PaLM?
Per u rendiment innovativu di Google in PaLM, i percorsi sò previsti per scala finu à 540 miliardi di parametri. Hè ricunnisciutu cum'è l'unicu mudellu chì pò generalizà in modu efficiente è efficace in numerosi domini. Pathways at Google hè dedicatu à u sviluppu di l'informatica distribuita per l'acceleratori.
PaLM hè un mudellu di trasformatore solu di decodificatore chì hè statu furmatu cù u sistema Pathways. PaLM hà ottenutu cun successu prestazioni di punta à pocu pressu in parechje carichi di travagliu, secondu Google. PaLM hà utilizatu u sistema Pathways per espansione a furmazione à a più grande cunfigurazione di u sistema basatu in TPU, cunnisciuta cum'è 6144 chips per a prima volta.
Un dataset di furmazione per u mudellu AI-lingua hè custituitu da una mistura di datasets in inglese è altri multilingue. Cù un vocabulariu "senza perdita", cuntene cuntenutu web d'alta qualità, discussioni, libri, codice GitHub, Wikipedia, è assai altri. U vocabulariu senza perdita hè ricunnisciutu per mantene i spazi bianchi è rompe i caratteri Unicode chì ùn sò micca in u vocabulariu in byte.
PaLM hè statu sviluppatu da Google è Pathways utilizendu una architettura di mudellu di trasformatore standard è una cunfigurazione di decodificatore chì includeva l'attivazione SwiGLU, strati paralleli, embeddings RoPE, embeddings input-output spartuti, attenzione multi-query, è senza preghjudiziu o vocabulariu. PaLM, invece, hè pronta à furnisce una basa solida per u mudellu di lingua AI di Google è Pathways.
Paràmetri utilizati per furmà PaLM
L'annu passatu, Google hà lanciatu Pathways, un mudellu unicu chì pò esse furmatu per fà millaie, se micca milioni, di cose - chjamatu "architettura AI di prossima generazione" postu chì pò superà e limitazioni di i mudelli esistenti di esse furmatu per fà una sola cosa. . Invece di espansione e capacità di i mudelli attuali, i mudelli novi sò spessu custruiti da u fondu per fà un unicu travagliu.
In u risultatu, anu creatu decine di millaie di mudelli per decine di millaie di attività diverse. Il s'agit d'une tâche qui demande beaucoup de temps et de ressources.
Google hà dimustratu via Pathways chì un mudellu unicu puderia gestisce una varietà di attività è sguassate è cunghjuntà i talenti attuali per amparà novi travaglii più rapidamente è in modu efficiente.
I mudelli multimodali chì includenu a visione, a comprensione linguistica è l'elaborazione auditiva à u stessu tempu puderanu esse attivati per via di percorsi. Pathways Language Model (PaLM) permette a furmazione di un unicu mudellu in numerosi Pods TPU v4 grazia à u so mudellu di parametri 540 miliardi.
PaLM, un mudellu Transformer densu solu per decodificatori, supera prestazioni di punta à pocu pressu in una larga gamma di carichi di travagliu. PaLM hè furmatu nantu à dui Pods TPU v4 chì sò ligati via una reta di centru di dati (DCN).
Prufitta di u parallelismu di mudelli è di dati. I circadori anu impiegatu 3072 processori TPU v4 in ogni Pod per PaLM, chì eranu cunnessi à 768 ospiti. Sicondu i circadori, questa hè a più grande cunfigurazione di TPU ancora divulgata, chì li permette di scala a furmazione senza impiegà parallelismu di pipeline.
Pipe lining hè u prucessu di riunite struzzioni da u CPU attraversu un pipeline in generale. I strati di u mudellu sò divisi in fasi chì ponu esse processati in parallelu via parallelismu di u mudellu di pipeline (o parallelismu di pipeline).
A memoria di attivazione hè mandata à u prossimu passu quandu una tappa cumpleta u passu avanti per un micro-batch. I gradienti sò poi mandati in daretu quandu a tappa dopu compie a so propagazione in daretu.
Capacità di rivoluzione di PaLM
PaLM mostra capacità rivoluzionarie in una serie di travaglii difficili. Eccu parechji esempi:
1. Creazione è capiscitura di a lingua
PaLM hè stata messa à a prova nantu à 29 diverse attività NLP in inglese.
In una basa di pochi colpi, PaLM 540B hà superatu i mudelli grandi precedenti cum'è GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla è LaMDA nantu à 28 di 29 compiti, cumprese i compiti di risposta à e dumande di varianti di libru chjusu di duminiu apertu. , compiti di cloze è di cumplimentu di frase, travaglii in stile Winograd, compiti di comprensione di lettura in cuntestu, compiti di ragiunamentu di sensu cumunu, compiti SuperGLUE è inferenza naturali.
Nantu à parechje attività BIG-bench, PaLM dimostra eccellenti capacità di interpretazione di lingua naturale è generazione. Per esempiu, u mudellu pò distingue trà a causa è l'effettu, capiscenu cumminzioni cuncettuali in certe situazioni, è ancu indovinà u filmu da un emoji. Ancu s'è solu u 22% di u corpu di furmazione ùn hè micca inglesu, PaLM funziona bè nantu à i benchmarks di NLP multilingue, cumprese a traduzzione, in più di i travaglii di NLP in inglese.
2. Ragiunamentu
PaLM unisce a dimensione di u mudellu cù l'incitazione di a catena di pensamentu per dimustrà cumpetenze avanzate nantu à e sfide di ragiunamentu chì necessitanu un ragiunamentu aritmeticu in più tappe o sensu cumunu.
I LLM precedenti, cum'è Gopher, anu beneficiatu menu di a dimensione di u mudellu in quantu à rinfurzà u rendiment. U PaLM 540B cù l'incitazione di a catena di pensamentu hè andatu bè nantu à trè aritmetiche è dui datasets di pensamentu cumuni.
PaLM supera u megliu puntuazione precedente di 55%, chì hè stata ottenuta per fine-tuning u mudellu GPT-3 175B cù un gruppu di furmazione di 7500 prublemi è cumminendu cù una calculatrice esterna è verificatore per risolve u 58 per centu di i prublemi in GSM8K, un benchmark di millaie di dumande di matematica à u livellu di scola difficiuli chì utilizanu prompting 8-shot.
Stu novu puntuazione hè soprattuttu degne di nota postu chì si avvicina à u 60% di media di ostaculi sperimentati da i zitelli di 9-12 anni. Pò ancu risponde à i scherzi originali chì ùn sò micca dispunibili in Internet.
3. Generazione di codice
LLM hè statu ancu dimustratu per fà bè in i travaglii di codificazione, cumpresa a generazione di codice da una descrizzione di lingua naturale (text-to-code), traduzzione di codice trà lingue, è risolve errori di compilazione. Malgradu avè solu u codice di 5% in u set di dati di pre-furmazione, PaLM 540B eseguisce bè in e funzioni di codificazione è di lingua naturale in un mudellu unicu.
U so rendimentu pocu spartu hè incredibile, postu chì currisponde à u Codex 12B finamente sintonizatu mentre allenate cù 50 volte menu codice Python. Questa scuperta sustene cun scuperte precedenti chì i mudelli più grande ponu esse più efficaci di mostra cà i mudelli più chjuchi perchè ponu trasfiriri in modu più efficace l'apprendimentu da parechje. lingue di prugrammazione e dati in lingua semplice.
cunchiusioni
PaLM mostra a capacità di u sistema Pathways di scala à millaie di processori acceleratori nantu à dui TPU v4 Pods da furmazione efficace à un mudellu di paràmetru di 540 miliardi cù una ricetta ben studiata è ben stabilita di un mudellu di Transformer densu solu per decodificatore.
Ottene prestazioni sfondate in pochi colpi in una gamma di sfidi di trasfurmazioni di lingua naturale, ragiunamentu è codificazione spinghjendu i limiti di a scala di mudellu.
Lascia un Audiolibro