Le grandi reti neurali che sono state addestrate per il riconoscimento e la generazione del linguaggio hanno dimostrato risultati eccezionali in una varietà di compiti negli ultimi anni. GPT-3 ha dimostrato che i modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per l'apprendimento in pochi scatti e ottenere risultati eccellenti senza richiedere dati specifici per attività estesi o modificare i parametri del modello.
Google, il colosso tecnologico della Silicon Valley, ha introdotto PaLM, o Pathways Language Model, nell'industria tecnologica mondiale come modello di linguaggio AI di prossima generazione. Google ha incorporato un nuovo intelligenza artificiale architettura in PaLM con obiettivi strategici per migliorare la qualità del modello di linguaggio AI.
In questo post, esamineremo in dettaglio l'algoritmo Palm, inclusi i parametri utilizzati per addestrarlo, il problema che risolve e molto altro.
Che cosa è l' Algoritmo PaLM di Google?
Pathways Language Model è cosa Palma sta per. Si tratta di un nuovo algoritmo sviluppato da Google per rafforzare l'architettura Pathways AI. L'obiettivo principale della struttura è di svolgere un milione di attività distinte contemporaneamente.
Questi includono tutto, dalla decifrazione di dati complessi al ragionamento deduttivo. PaLM ha la capacità di superare l'attuale stato dell'arte dell'IA così come gli esseri umani nelle attività linguistiche e di ragionamento.
Ciò include Few-Shot Learning, che imita il modo in cui gli esseri umani imparano cose nuove e combinano diversi bit di conoscenza per affrontare nuove sfide che non sono mai state viste prima, con il vantaggio di una macchina che può utilizzare tutta la sua conoscenza per risolvere nuove sfide; un esempio di questa abilità in PaLM è la sua capacità di spiegare una barzelletta che non ha mai sentito prima.
PaLM ha dimostrato molte abilità rivoluzionarie su una varietà di compiti impegnativi, tra cui comprensione e creazione del linguaggio, attività relative al codice aritmetico multifase, ragionamento basato sul buon senso, traduzione e molti altri.
Ha dimostrato la sua capacità di risolvere problemi complicati utilizzando set NLP multilingue. PaLM può essere utilizzato dal mercato tecnologico mondiale per differenziare causa ed effetto, combinazioni concettuali, giochi distinti e molte altre cose.
Può anche generare spiegazioni approfondite per molti contesti utilizzando l'inferenza logica multistep, un linguaggio profondo, una conoscenza globale e altre tecniche.
Come ha sviluppato Google l'algoritmo PaLM?
Per le prestazioni rivoluzionarie di Google in PaLM, i percorsi sono programmati per scalare fino a 540 miliardi di parametri. È riconosciuto come l'unico modello che può generalizzare in modo efficiente ed efficace in numerosi domini. Pathways in Google è dedicato allo sviluppo del calcolo distribuito per gli acceleratori.
PaLM è un modello di trasformatore solo decoder che è stato addestrato utilizzando il sistema Pathways. Secondo Google, PaLM ha raggiunto con successo prestazioni a scatti all'avanguardia su diversi carichi di lavoro. PaLM ha utilizzato il sistema Pathways per espandere la formazione alla più grande configurazione di sistema basata su TPU, nota per la prima volta come chip 6144.
Un set di dati di addestramento per il modello in lingua AI è composto da un mix di set di dati in inglese e altri multilingue. Con un vocabolario "senza perdita di dati", contiene contenuti Web di alta qualità, discussioni, libri, codice GitHub, Wikipedia e molti altri. Il vocabolario senza perdita di dati è riconosciuto per la conservazione di spazi bianchi e la suddivisione in byte dei caratteri Unicode che non sono nel vocabolario.
PaLM è stato sviluppato da Google e Pathways utilizzando un'architettura del modello di trasformatore standard e una configurazione del decoder che includeva l'attivazione SwiGLU, livelli paralleli, incorporamenti RoPE, incorporamenti di input-output condivisi, attenzione multi-query e nessun pregiudizio o vocabolario. PaLM, d'altra parte, è pronto a fornire una solida base per il modello di linguaggio AI di Google e Pathways.
Parametri utilizzati per addestrare PaLM
L'anno scorso, Google ha lanciato Pathways, un modello unico che può essere addestrato per fare migliaia, se non milioni, di cose, soprannominato "l'architettura AI di nuova generazione" poiché può superare i limiti dei modelli esistenti di essere addestrato a fare solo una cosa . Invece di espandere le capacità dei modelli attuali, i nuovi modelli vengono spesso costruiti partendo dal basso per eseguire un unico lavoro.
Di conseguenza, hanno creato decine di migliaia di modelli per decine di migliaia di attività diverse. Questa è un'attività che richiede tempo e molte risorse.
Google ha dimostrato tramite Pathways che un singolo modello può gestire una varietà di attività e attingere e combinare i talenti attuali per apprendere nuove attività in modo più rapido ed efficiente.
I modelli multimodali che includono visione, comprensione linguistica ed elaborazione uditiva tutti allo stesso tempo potrebbero essere abilitati attraverso percorsi. Pathways Language Model (PaLM) consente l'addestramento di un singolo modello su numerosi pod TPU v4 grazie al suo modello da 540 miliardi di parametri.
PaLM, un modello Transformer ad alta densità con solo decoder, supera le prestazioni all'avanguardia in un'ampia gamma di carichi di lavoro. PaLM viene addestrato su due pod TPU v4 collegati tramite una rete di data center (DCN).
Sfrutta sia il modello che il parallelismo dei dati. I ricercatori hanno impiegato 3072 processori TPU v4 in ciascun Pod per PaLM, che erano collegati a 768 host. Secondo i ricercatori, questa è la configurazione TPU più grande mai rivelata, che consente loro di scalare l'addestramento senza utilizzare il parallelismo della pipeline.
Il rivestimento delle tubazioni è il processo di raccolta delle istruzioni dalla CPU attraverso una pipeline in generale. Gli strati del modello sono suddivisi in fasi che possono essere elaborate in parallelo tramite il parallelismo del modello di pipeline (o parallelismo di pipeline).
La memoria di attivazione viene inviata al passaggio successivo quando uno stadio completa il passaggio in avanti per un micro-batch. I gradienti vengono quindi inviati all'indietro quando la fase successiva completa la sua propagazione all'indietro.
Capacità rivoluzionarie di PaLM
PaLM mostra abilità rivoluzionarie in una serie di compiti difficili. Ecco diversi esempi:
1. Creazione e comprensione del linguaggio
PaLM è stato messo alla prova su 29 diverse attività di PNL in inglese.
In pochi colpi, PaLM 540B ha superato i precedenti modelli di grandi dimensioni come GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla e LaMDA in 28 delle 29 attività, comprese le attività di risposta alle domande con varianti a libro chiuso a dominio aperto , compiti di cloze e di completamento delle frasi, compiti in stile Winograd, compiti di comprensione della lettura nel contesto, compiti di ragionamento di buon senso, compiti SuperGLUE e inferenza naturale.
In diverse attività BIG-bench, PaLM dimostra un'eccellente interpretazione del linguaggio naturale e capacità di generazione. Ad esempio, il modello può distinguere tra causa ed effetto, comprendere le combinazioni concettuali in determinate situazioni e persino indovinare il film da un'emoji. Anche se solo il 22% del corpus di formazione non è in inglese, PaLM si comporta bene su benchmark NLP multilingue, inclusa la traduzione, oltre alle attività NLP in inglese.
2. Ragionamento
PaLM fonde la dimensione del modello con la catena di pensiero che spinge a dimostrare abilità rivoluzionarie su sfide di ragionamento che richiedono aritmetica multifase o ragionamento di buon senso.
I precedenti LLM, come Gopher, hanno beneficiato meno delle dimensioni del modello in termini di miglioramento delle prestazioni. Il PaLM 540B con il suggerimento della catena di pensieri è andato bene su tre set di dati di pensiero aritmetico e due di buon senso.
PaLM supera il precedente miglior punteggio del 55%, ottenuto mettendo a punto il modello GPT-3 175B con un training set di 7500 problemi e combinandolo con un calcolatore esterno e verificatore per risolvere il 58% dei problemi in GSM8K, un benchmark di migliaia di difficili domande di matematica a livello di scuola elementare utilizzando 8-shot prompt.
Questo nuovo punteggio è particolarmente degno di nota poiché si avvicina alla media del 60% degli ostacoli incontrati dai bambini di età compresa tra 9 e 12 anni. Può anche rispondere a battute originali che non sono disponibili su Internet.
3. Generazione di codice
È stato anche dimostrato che gli LLM funzionano bene nelle attività di codifica, inclusa la generazione di codice da una descrizione in linguaggio naturale (da testo a codice), la traduzione di codice tra lingue e la risoluzione di errori di compilazione. Nonostante abbia solo il 5% di codice nel set di dati di pre-formazione, PaLM 540B esegue bene sia le attività di codifica che quelle di linguaggio naturale in un unico modello.
Le sue prestazioni a scatti sono incredibili, in quanto si abbina al Codex 12B ottimizzato durante l'allenamento con codice Python 50 volte inferiore. Questa scoperta supporta i risultati precedenti secondo cui i modelli più grandi possono essere più efficienti in termini di campioni rispetto ai modelli più piccoli perché possono trasferire in modo più efficace l'apprendimento da più linguaggi di programmazione e dati in linguaggio semplice.
Conclusione
PaLM mostra la capacità del sistema Pathways di scalare a migliaia di processori acceleratori su due pod TPU v4 addestrando in modo efficace un modello di parametri da 540 miliardi con una ricetta ben studiata e consolidata di un modello Transformer denso solo con decoder.
Raggiunge prestazioni rivoluzionarie in pochi colpi in una vasta gamma di problemi di elaborazione, ragionamento e codifica del linguaggio naturale spingendo i limiti della scala del modello.
Lascia un Commento