Introdución ao modelo de linguaxe Pathways (PaLM)

Índice analítico[Ocultar][Mostrar]

Que é o algoritmo PaLM de Google?
Como desenvolveu Google o algoritmo PaLM?
Parámetros utilizados para adestrar PaLM
Capacidades innovadoras de PaLM+-
Conclusión

As grandes redes neuronais que foron adestradas para o recoñecemento e a xeración de linguas demostraron resultados destacados en diversas tarefas nos últimos anos. GPT-3 demostrou que os grandes modelos de linguaxe (LLM) podían usarse para a aprendizaxe en poucos pasos e obter excelentes resultados sen esixir unha gran cantidade de datos específicos de tarefas ou cambiar os parámetros do modelo.

Google, o gigante tecnolóxico de Silicon Valley, presentou PaLM, ou Pathways Language Model, á industria tecnolóxica mundial como o modelo de linguaxe AI de próxima xeración. Google incorporou unha nova intelixencia artificial arquitectura en PaLM con obxectivos estratéxicos para mellorar a calidade do modelo de linguaxe de IA.

Nesta publicación, examinaremos o algoritmo de Palm en detalle, incluíndo os parámetros utilizados para adestralo, o problema que resolve e moito máis.

O que é Algoritmo PaLM de Google?

Pathways Language Model is what PALM apoia. Este é un novo algoritmo desenvolvido por Google co fin de reforzar a arquitectura de IA de Pathways. O obxectivo principal da estrutura é facer un millón de actividades distintas á vez.

Estes inclúen desde descifrar datos complexos ata razoamentos dedutivos. PaLM ten a capacidade de superar o estado da arte actual da IA, así como os humanos en tarefas de linguaxe e razoamento.

Isto inclúe Few-Shot Learning, que imita como os humanos aprenden cousas novas e combinan diversos coñecementos para afrontar novos desafíos que nunca se viran, co beneficio dunha máquina que pode utilizar todo o seu coñecemento para resolver novos desafíos; un exemplo desta habilidade en PaLM é a súa habilidade para explicar unha broma que nunca antes escoitou.

PALM

PaLM demostrou moitas habilidades innovadoras nunha variedade de tarefas desafiantes, incluíndo a comprensión e creación da linguaxe, actividades relacionadas co código aritmético de varios pasos, o razoamento de sentido común, a tradución e moitas máis.

Demostrou a súa capacidade para resolver problemas complicados mediante conxuntos multilingües de PNL. PaLM pode ser usado polo mercado tecnolóxico mundial para diferenciar causa e efecto, combinacións conceptuais, xogos distintos e moitas outras cousas.

Tamén pode xerar explicacións en profundidade para moitos contextos mediante inferencia lóxica de varios pasos, linguaxe profunda, coñecemento global e outras técnicas.

Como desenvolveu Google o algoritmo PaLM?

Para o rendemento innovador de Google en PaLM, está programado que as vías escalan ata 540 mil millóns de parámetros. Recoñécese como o único modelo que pode xeneralizar de forma eficiente e eficaz en numerosos dominios. Pathways at Google dedícase a desenvolver computación distribuída para aceleradores.

PaLM é un modelo de transformador só decodificador que foi adestrado usando o sistema Pathways. Segundo Google, PaLM alcanzou con éxito un rendemento de última xeración en varias cargas de traballo. PaLM utilizou o sistema Pathways para ampliar o adestramento á maior configuración do sistema baseada en TPU, coñecida como chips 6144 por primeira vez.

Un conxunto de datos de formación para o modelo de linguaxe AI está formado por unha mestura de conxuntos de datos en inglés e outros multilingües. Cun vocabulario "sen perdas", contén contido web de alta calidade, discusións, libros, código GitHub, Wikipedia e moitos máis. Recoñécese o vocabulario sen perdas por conservar espazos en branco e dividir en bytes os caracteres Unicode que non están no vocabulario.

PaLM foi desenvolvido por Google e Pathways utilizando unha arquitectura de modelo de transformador estándar e unha configuración de decodificador que incluía a activación SwiGLU, capas paralelas, insercións de corda, insercións de entrada-saída compartidas, atención de consultas múltiples e sen prexuízos nin vocabulario. PaLM, por outra banda, está a punto de proporcionar unha base sólida para o modelo de linguaxe AI de Google e Pathways.

Parámetros utilizados para adestrar PaLM

O ano pasado, Google lanzou Pathways, un modelo único que se pode adestrar para facer miles, se non millóns, de cousas, denominada "arquitectura de IA de próxima xeración", xa que pode superar as limitacións dos modelos existentes de ser adestrado para facer só unha cousa. . En lugar de ampliar as capacidades dos modelos actuais, os novos modelos adoitan construírse de abaixo cara arriba para realizar un só traballo.

Como resultado, crearon decenas de miles de modelos para decenas de miles de actividades diferentes. Esta é unha tarefa que consume moito tempo e moitos recursos.

Google demostrou a través de Pathways que un único modelo podía xestionar unha variedade de actividades e aproveitar e combinar os talentos actuais para aprender novas tarefas de forma máis rápida e eficiente.

Os modelos multimodais que inclúen a visión, a comprensión lingüística e o procesamento auditivo ao mesmo tempo poden habilitarse a través de vías. Pathways Language Model (PaLM) permite o adestramento dun único modelo en numerosos Pods TPU v4 grazas ao seu modelo de parámetros de 540 mil millóns.

Infraestrutura de Formación

PaLM, un modelo Transformer denso só con decodificador, supera o rendemento de última xeración en poucos tiros nunha ampla gama de cargas de traballo. PaLM está sendo adestrado en dous pods TPU v4 que están conectados a través dunha rede de centro de datos (DCN).

Aproveita o paralelismo de modelos e datos. Os investigadores empregaron 3072 procesadores TPU v4 en cada Pod para PaLM, que estaban conectados a 768 hosts. Segundo os investigadores, esta é a maior configuración de TPU revelada ata agora, o que lles permite escalar o adestramento sen empregar o paralelismo de canalizacións.

O revestimento de tuberías é o proceso de recompilación de instrucións da CPU a través dunha canalización en xeral. As capas do modelo divídense en fases que se poden procesar en paralelo mediante o paralelismo do modelo de canalización (ou paralelismo de canalización).

A memoria de activación envíase ao seguinte paso cando unha etapa completa o paso adiante para un micro-lote. Os gradientes son enviados cara atrás cando a seguinte etapa completa a súa propagación cara atrás.

Capacidades innovadoras de PaLM

PaLM mostra habilidades innovadoras nunha serie de tarefas difíciles. Aquí tes varios exemplos:

1. Creación e comprensión da linguaxe

PaLM púxose a proba en 29 tarefas diferentes de PNL en inglés.

En poucos planos, o PaLM 540B superou aos modelos anteriores grandes como GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla e LaMDA en 28 de 29 tarefas, incluídas as tarefas de resposta de preguntas de variante de libro pechado de dominio aberto. , tarefas de cierre e conclusión de frases, tarefas de estilo Winograd, tarefas de comprensión lectora en contexto, tarefas de razoamento de sentido común, tarefas SuperGLUE e inferencia natural.

Comprensión da xeración da linguaxe

En varias tarefas de BIG-bench, PaLM demostra excelentes habilidades de interpretación da linguaxe natural e de xeración. Por exemplo, o modelo pode distinguir entre causa e efecto, comprender combinacións conceptuais en determinadas situacións e mesmo adiviñar a película a partir dun emoji. Aínda que só o 22% do corpus de formación non é inglés, PaLM ten un bo rendemento nos benchmarks multilingües de PNL, incluída a tradución, ademais das tarefas de PNL en inglés.

2. Razoamento

PaLM combina o tamaño do modelo con indicacións de cadea de pensamento para demostrar habilidades innovadoras en desafíos de razoamento que requiren aritmética de varios pasos ou razoamento de sentido común.

Os LLM anteriores, como Gopher, beneficiáronse menos do tamaño do modelo en canto a mellorar o rendemento. O PaLM 540B con indicación de cadea de pensamento saíu ben en tres conxuntos de datos de pensamento aritmético e dous de sentido común. Razoamento

PaLM supera a mellor puntuación anterior do 55 %, que se obtivo axustando o modelo GPT-3 175B cun conxunto de adestramento de 7500 problemas e combinándoo cunha calculadora e un verificador externos para resolver o 58 % dos problemas en GSM8K, un referencia de miles de preguntas de matemáticas de nivel escolar difíciles usando indicacións de 8 tiros.

Destaca especialmente esta nova puntuación xa que se aproxima ao 60% de media de obstáculos que experimentan os nenos de 9 a 12 anos. Tamén pode responder a chistes orixinais que non están dispoñibles en Internet.

Explicando unha broma

3. Xeración de código

Tamén se demostrou que os LLM funcionan ben nas tarefas de codificación, incluíndo a xeración de código a partir dunha descrición en linguaxe natural (de texto a código), a tradución de código entre idiomas e a resolución de erros de compilación. A pesar de ter só un 5 % de código no conxunto de datos previos á formación, PaLM 540B funciona ben tanto en tarefas de codificación como de linguaxe natural nun único modelo.

Xeración de código

O seu rendemento en poucos tiros é incrible, xa que coincide co Codex 12B afinado mentres se adestra con 50 veces menos código Python. Este descubrimento respalda os descubrimentos anteriores de que os modelos máis grandes poden ser máis eficientes na mostra que os modelos máis pequenos porque poden transferir de forma máis eficaz a aprendizaxe de múltiples linguaxes de programación e datos en linguaxe sinxela.

Exemplo de xeración de código.

Conclusión

PaLM mostra a capacidade do sistema Pathways para escalar a miles de procesadores aceleradores a través de dous Pods TPU v4 adestrando de forma efectiva un modelo de parámetros de 540 millóns cunha receita ben estudada e ben establecida dun modelo Transformer denso só con decodificador.

Acada un rendemento revolucionario en poucos planos nunha serie de desafíos de procesamento da linguaxe natural, razoamento e codificación, superando os límites da escala do modelo.

Introdución ao modelo de linguaxe Pathways (PaLM)

O que é Algoritmo PaLM de Google?

Como desenvolveu Google o algoritmo PaLM?

Parámetros utilizados para adestrar PaLM