Les grans xarxes neuronals que s'han entrenat per al reconeixement i la generació del llenguatge han demostrat resultats excel·lents en una varietat de tasques en els darrers anys. GPT-3 va demostrar que els grans models de llenguatge (LLM) es podrien utilitzar per a l'aprenentatge de pocs cops i obtenir resultats excel·lents sense requerir dades extenses específiques de la tasca o canviar els paràmetres del model.
Google, el gegant tecnològic de Silicon Valley, ha introduït PaLM, o Pathways Language Model, a la indústria tecnològica mundial com a model de llenguatge AI de nova generació. Google n'ha incorporat una nova intel·ligència artificial arquitectura a PaLM amb objectius estratègics per millorar la qualitat del model de llenguatge d'IA.
En aquesta publicació, examinarem l'algorisme de Palm en detall, inclosos els paràmetres utilitzats per entrenar-lo, el problema que resol i molt més.
Què és Algorisme PaLM de Google?
Pathways Language Model és què PALM significa. Aquest és un nou algorisme desenvolupat per Google per enfortir l'arquitectura d'IA de Pathways. L'objectiu principal de l'estructura és fer un milió d'activitats diferents alhora.
Aquests inclouen des de desxifrar dades complexes fins al raonament deductiu. PaLM té la capacitat de superar l'estat de l'art actual de la IA, així com els humans en tasques de llenguatge i raonament.
Això inclou Few-Shot Learning, que imita com els humans aprenen coses noves i combinen diversos coneixements per afrontar nous reptes que mai s'havien vist abans, amb el benefici d'una màquina que pot utilitzar tot el seu coneixement per resoldre nous reptes; Un exemple d'aquesta habilitat a PaLM és la seva capacitat per explicar una broma que mai havia sentit abans.
PaLM va demostrar moltes habilitats innovadores en una varietat de tasques difícils, com ara la comprensió i la creació del llenguatge, les activitats relacionades amb el codi aritmètic de diversos passos, el raonament de sentit comú, la traducció i molts més.
Ha demostrat la seva capacitat per resoldre problemes complicats mitjançant conjunts de PNL multilingües. El mercat tecnològic mundial pot utilitzar PaLM per diferenciar causa i efecte, combinacions conceptuals, jocs diferents i moltes altres coses.
També pot generar explicacions en profunditat per a molts contextos mitjançant inferència lògica de diversos passos, llenguatge profund, coneixement global i altres tècniques.
Com va desenvolupar Google l'algoritme PaLM?
Per al rendiment innovador de Google a PaLM, les vies estan programades per escalar fins a 540 mil milions de paràmetres. Es reconeix com l'únic model que es pot generalitzar de manera eficient i eficaç en nombrosos dominis. Pathways at Google es dedica a desenvolupar informàtica distribuïda per a acceleradors.
PaLM és un model de transformador només descodificador que s'ha entrenat mitjançant el sistema Pathways. Segons Google, PaLM ha assolit amb èxit un rendiment d'última generació en pocs tirs en diverses càrregues de treball. PaLM ha utilitzat el sistema Pathways per ampliar la formació a la configuració de sistema basada en TPU més gran, coneguda com a xips 6144 per primera vegada.
Un conjunt de dades d'entrenament per al model d'idioma d'IA està format per una combinació de conjunts de dades en anglès i altres multilingües. Amb un vocabulari "sense pèrdues", conté contingut web d'alta qualitat, debats, llibres, codi GitHub, Viquipèdia i molts més. El vocabulari sense pèrdues es reconeix per conservar espais en blanc i dividir en bytes els caràcters Unicode que no es troben al vocabulari.
PaLM va ser desenvolupat per Google i Pathways utilitzant una arquitectura de model de transformador estàndard i una configuració de descodificador que incloïa l'activació SwiGLU, capes paral·leles, incrustacions de corda, incrustacions d'entrada-sortida compartides, atenció multiconsulta i sense biaixos ni vocabulari. PaLM, d'altra banda, està disposat a proporcionar una base sòlida per al model de llenguatge AI de Google i Pathways.
Paràmetres utilitzats per entrenar PaLM
L'any passat, Google va llançar Pathways, un model únic que es pot entrenar per fer milers, si no milions, de coses, anomenada "arquitectura d'IA de nova generació", ja que pot superar les limitacions dels models existents d'estar entrenats per fer només una cosa. . En lloc d'ampliar les capacitats dels models actuals, sovint es construeixen nous models de baix a dalt per realitzar una única feina.
Com a resultat, han creat desenes de milers de models per a desenes de milers d'activitats diferents. Aquesta és una tasca que requereix molt temps i recursos.
Google va demostrar a través de Pathways que un sol model podia gestionar una varietat d'activitats i aprofitar i combinar els talents actuals per aprendre noves tasques de manera més ràpida i eficient.
Els models multimodals que inclouen la visió, la comprensió lingüística i el processament auditiu alhora es podrien habilitar mitjançant vies. Pathways Language Model (PaLM) permet l'entrenament d'un únic model en nombrosos pods TPU v4 gràcies al seu model de 540 mil milions de paràmetres.
PaLM, un model de transformador dens només per a descodificadors, supera el rendiment d'última generació de pocs tirs en una àmplia gamma de càrregues de treball. PaLM està sent entrenat en dos pods TPU v4 que estan enllaçats mitjançant una xarxa de centre de dades (DCN).
Aprofita el paral·lelisme tant del model com de les dades. Els investigadors van utilitzar 3072 processadors TPU v4 a cada Pod per a PaLM, que estaven connectats a 768 amfitrions. Segons els investigadors, aquesta és la configuració de TPU més gran que s'ha revelat fins ara, cosa que els permet escalar la formació sense utilitzar el paral·lelisme de canonades.
El revestiment de canonades és el procés de recopilació d'instruccions de la CPU a través d'una canonada en general. Les capes del model es divideixen en fases que es poden processar en paral·lel mitjançant el paral·lelisme del model de pipeline (o paral·lelisme de pipeline).
La memòria d'activació s'envia al següent pas quan una etapa completa el pas endavant per a un microlot. Els gradients s'envien cap enrere quan l'etapa següent completa la seva propagació cap enrere.
Capacitats innovadores de PaLM
PaLM mostra habilitats innovadores en una sèrie de tasques difícils. Aquí hi ha diversos exemples:
1. Creació i comprensió del llenguatge
PaLM es va posar a prova en 29 tasques diferents de PNL en anglès.
En pocs tirs, el PaLM 540B va superar els models grans anteriors, com ara GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla i LaMDA en 28 de 29 tasques, incloses les tasques de resposta de preguntes de variant de llibre tancat de domini obert. , tasques de cloze i de finalització de frases, tasques d'estil Winograd, tasques de comprensió lectora en context, tasques de raonament de sentit comú, tasques de SuperGLUE i inferència natural.
En diverses tasques de BIG-bench, PaLM demostra excel·lents habilitats d'interpretació del llenguatge natural i de generació. Per exemple, el model pot distingir entre causa i efecte, entendre combinacions conceptuals en determinades situacions i fins i tot endevinar la pel·lícula a partir d'un emoji. Tot i que només el 22% del corpus de formació no és anglès, PaLM té un bon rendiment en els punts de referència multilingües de PNL, inclosa la traducció, a més de les tasques de PNL en anglès.
2. Raonament
PaLM combina la mida del model amb l'impuls de la cadena de pensament per demostrar habilitats innovadores en els reptes de raonament que requereixen un raonament aritmètic o de sentit comú de diversos passos.
Els LLM anteriors, com Gopher, es van beneficiar menys de la mida del model pel que fa a la millora del rendiment. El PaLM 540B amb una cadena de pensament va funcionar bé en tres conjunts de dades aritmètiques i dos de sentit comú.
PaLM supera la millor puntuació anterior del 55%, que es va obtenir ajustant el model GPT-3 175B amb un conjunt d'entrenament de 7500 problemes i combinant-lo amb una calculadora i un verificador externs per resoldre el 58% dels problemes de GSM8K, un punt de referència de milers de preguntes difícils de matemàtiques de nivell escolar mitjançant indicacions de 8 trets.
Aquesta nova puntuació és especialment remarcable ja que s'acosta al 60% de mitjana d'obstacles que viuen els nens de 9 a 12 anys. També pot respondre a acudits originals que no estan disponibles a Internet.
3. Generació de codi
També s'ha demostrat que els LLM funcionen bé en tasques de codificació, inclosa la generació de codi a partir d'una descripció en llenguatge natural (de text a codi), la traducció de codi entre idiomes i la resolució d'errors de compilació. Tot i que només té un 5% de codi al conjunt de dades previ a la formació, PaLM 540B funciona bé tant en tasques de codificació com de llenguatge natural en un sol model.
El seu rendiment en pocs tirs és increïble, ja que coincideix amb el Codex 12B afinat mentre entrena amb 50 vegades menys codi Python. Aquesta troballa es basa en troballes anteriors que els models més grans poden ser més eficients en la mostra que els models més petits perquè poden transferir l'aprenentatge de múltiples llenguatges de programació i dades en llenguatge senzill.
Conclusió
PaLM mostra la capacitat del sistema Pathways d'escalar a milers de processadors acceleradors a través de dos pods TPU v4 mitjançant l'entrenament eficaç d'un model de paràmetres de 540 milions amb una recepta ben estudiada i ben establerta d'un model de Transformador dens només amb descodificador.
Aconsegueix un rendiment avançat de pocs tirs en una sèrie de reptes de processament, raonament i codificació del llenguatge natural, superant els límits de l'escala del model.
Deixa un comentari