Grandes redes neuronales que han sido entrenadas para el reconocimiento y la generación de idiomas han demostrado resultados sobresalientes en una variedad de tareas en los últimos años. GPT-3 demostró que los modelos de lenguaje extenso (LLM, por sus siglas en inglés) se pueden usar para el aprendizaje de pocos disparos y obtener excelentes resultados sin requerir una gran cantidad de datos específicos de la tarea o cambiar los parámetros del modelo.
Google, el gigante tecnológico de Silicon Valley, ha introducido PaLM, o Pathways Language Model, en la industria tecnológica mundial como el modelo de lenguaje de inteligencia artificial de próxima generación. Google ha incorporado un nuevo inteligencia artificial arquitectura en PaLM con objetivos estratégicos para mejorar la calidad del modelo de lenguaje de IA.
En esta publicación, examinaremos el algoritmo de Palm en detalle, incluidos los parámetros utilizados para entrenarlo, el problema que resuelve y mucho más.
Que es Algoritmo PaLM de Google?
Pathways Language Model es lo que Palmera representa. Este es un nuevo algoritmo desarrollado por Google para fortalecer la arquitectura Pathways AI. El objetivo principal de la estructura es realizar un millón de actividades distintas a la vez.
Estos incluyen todo, desde descifrar datos complejos hasta el razonamiento deductivo. PaLM tiene la capacidad de superar la IA de última generación actual, así como a los humanos en tareas de lenguaje y razonamiento.
Esto incluye Few-Shot Learning, que imita cómo los humanos aprenden cosas nuevas y combinan diversos conocimientos para abordar nuevos desafíos que nunca antes se habían visto, con el beneficio de una máquina que puede usar todo su conocimiento para resolver nuevos desafíos; un ejemplo de esta habilidad en PaLM es su habilidad para explicar un chiste que nunca antes había escuchado.
PaLM demostró muchas habilidades innovadoras en una variedad de tareas desafiantes, que incluyen comprensión y creación de idiomas, actividades relacionadas con códigos aritméticos de varios pasos, razonamiento de sentido común, traducción y muchas más.
Ha demostrado su capacidad para resolver problemas complicados utilizando conjuntos de NLP multilingües. PaLM puede ser utilizado por el mercado tecnológico mundial para diferenciar causa y efecto, combinaciones conceptuales, juegos distintos y muchas otras cosas.
También puede generar explicaciones detalladas para muchos contextos usando inferencia lógica de varios pasos, lenguaje profundo, conocimiento global y otras técnicas.
¿Cómo desarrolló Google el algoritmo PaLM?
Para el desempeño innovador de Google en PaLM, las rutas están programadas para escalar hasta 540 mil millones de parámetros. Se reconoce como el único modelo que puede generalizarse de manera eficiente y eficaz en numerosos dominios. Pathways en Google se dedica al desarrollo de computación distribuida para aceleradores.
PaLM es un modelo de transformador de solo decodificador que ha sido entrenado usando el sistema Pathways. PaLM ha logrado con éxito un rendimiento de última generación en pocas tomas en varias cargas de trabajo, según Google. PaLM ha utilizado el sistema Pathways para expandir la capacitación a la mayor configuración de sistema basada en TPU, conocida como 6144 chips por primera vez.
Un conjunto de datos de entrenamiento para el modelo de lenguaje de IA se compone de una combinación de conjuntos de datos en inglés y otros multilingües. Con un vocabulario "sin pérdidas", contiene contenido web de alta calidad, debates, libros, código de GitHub, Wikipedia y mucho más. El vocabulario sin pérdidas se reconoce por conservar los espacios en blanco y dividir en bytes los caracteres Unicode que no están en el vocabulario.
PaLM fue desarrollado por Google y Pathways utilizando una arquitectura de modelo de transformador estándar y una configuración de decodificador que incluía activación de SwiGLU, capas paralelas, incrustaciones de RoPE, incrustaciones de entrada y salida compartidas, atención de consultas múltiples y sin sesgos ni vocabulario. PaLM, por otro lado, está preparado para proporcionar una base sólida para el modelo de lenguaje de IA de Google y Pathways.
Parámetros utilizados para entrenar PaLM
El año pasado, Google lanzó Pathways, un modelo único que se puede entrenar para hacer miles, si no millones, de cosas, denominada "arquitectura de inteligencia artificial de próxima generación", ya que puede superar las limitaciones de los modelos existentes de ser entrenado para hacer una sola cosa. . En lugar de expandir las capacidades de los modelos actuales, los nuevos modelos a menudo se construyen de abajo hacia arriba para realizar un solo trabajo.
Como resultado, han creado decenas de miles de modelos para decenas de miles de actividades diferentes. Esta es una tarea que requiere mucho tiempo y recursos.
Google demostró a través de Pathways que un solo modelo podía manejar una variedad de actividades y aprovechar y combinar talentos actuales para aprender nuevas tareas de manera más rápida y eficiente.
Los modelos multimodales que incluyen visión, comprensión lingüística y procesamiento auditivo, todo al mismo tiempo, podrían habilitarse a través de vías. Pathways Language Model (PaLM) permite el entrenamiento de un solo modelo en numerosos pods de TPU v4 gracias a su modelo de 540 XNUMX millones de parámetros.
PaLM, un modelo de transformador denso solo de decodificador, supera el rendimiento de última generación de pocos disparos en una amplia gama de cargas de trabajo. PaLM se está capacitando en dos pods de TPU v4 que están vinculados a través de una red de centro de datos (DCN).
Se aprovecha tanto del modelo como del paralelismo de datos. Los investigadores emplearon 3072 procesadores TPU v4 en cada Pod para PaLM, que estaban conectados a 768 hosts. Según los investigadores, esta es la configuración de TPU más grande revelada hasta ahora, lo que les permite escalar el entrenamiento sin emplear el paralelismo de canalización.
El revestimiento de tuberías es el proceso de recopilación de instrucciones de la CPU a través de una tubería en general. Las capas del modelo se dividen en fases que se pueden procesar en paralelo a través del paralelismo del modelo de canalización (o paralelismo de canalización).
La memoria de activación se envía al siguiente paso cuando una etapa completa el paso hacia adelante para un microlote. Luego, los gradientes se envían hacia atrás cuando la siguiente etapa completa su propagación hacia atrás.
Capacidades innovadoras de PaLM
PaLM muestra habilidades innovadoras en una variedad de tareas difíciles. Aquí hay varios ejemplos:
1. Creación y comprensión del lenguaje
PaLM se puso a prueba en 29 tareas diferentes de PNL en inglés.
En unas pocas tomas, PaLM 540B superó a los modelos grandes anteriores como GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla y LaMDA en 28 de 29 tareas, incluidas las tareas de respuesta de preguntas de variante de libro cerrado de dominio abierto , cloze y tareas de finalización de oraciones, tareas de estilo Winograd, tareas de comprensión de lectura en contexto, tareas de razonamiento de sentido común, tareas de SuperGLUE e inferencia natural.
En varias tareas de BIG-bench, PaLM demuestra excelentes habilidades de interpretación y generación de lenguaje natural. Por ejemplo, el modelo puede distinguir entre causa y efecto, comprender combinaciones conceptuales en ciertas situaciones e incluso adivinar la película a partir de un emoji. Aunque solo el 22 % del corpus de capacitación no está en inglés, PaLM se desempeña bien en los puntos de referencia multilingües de PNL, incluida la traducción, además de las tareas de PNL en inglés.
2. Razonamiento
PaLM combina el tamaño del modelo con indicaciones de cadena de pensamiento para demostrar habilidades innovadoras en desafíos de razonamiento que requieren razonamiento aritmético o de sentido común de varios pasos.
Los LLM anteriores, como Gopher, se beneficiaron menos del tamaño del modelo en términos de mejora del rendimiento. Al PaLM 540B con indicaciones de cadena de pensamiento le fue bien en tres conjuntos de datos de aritmética y dos de pensamiento de sentido común.
PaLM supera la mejor puntuación anterior del 55 %, que se obtuvo ajustando el modelo GPT-3 175B con un conjunto de entrenamiento de 7500 problemas y combinándolo con una calculadora y verificador externos para resolver el 58 % de los problemas en GSM8K, un punto de referencia de miles de preguntas matemáticas difíciles de nivel escolar utilizando indicaciones de 8 disparos.
Este nuevo puntaje es especialmente notable ya que se acerca al 60% promedio de obstáculos experimentados por niños de 9 a 12 años. También puede responder a chistes originales que no están disponibles en Internet.
3. Generación de código
También se ha demostrado que los LLM funcionan bien en tareas de codificación, incluida la generación de código a partir de una descripción de lenguaje natural (texto a código), la traducción de código entre idiomas y la resolución de errores de compilación. A pesar de tener solo un 5 % de código en el conjunto de datos previo al entrenamiento, PaLM 540B se desempeña bien tanto en tareas de codificación como de lenguaje natural en un solo modelo.
Su rendimiento de pocos disparos es increíble, ya que coincide con el Codex 12B perfeccionado mientras se entrena con 50 veces menos código Python. Este hallazgo coincide con hallazgos previos de que los modelos más grandes pueden ser más eficientes en la muestra que los modelos más pequeños porque pueden transferir de manera más efectiva el aprendizaje de múltiples lenguajes de programación y datos en lenguaje sencillo.
Conclusión
PaLM muestra la capacidad del sistema Pathways para escalar a miles de procesadores aceleradores en dos pods TPU v4 al entrenar de manera efectiva un modelo de 540 mil millones de parámetros con una receta bien estudiada y bien establecida de un modelo de transformador denso solo de decodificador.
Logra un rendimiento innovador en pocas tomas en una variedad de desafíos de codificación, razonamiento y procesamiento del lenguaje natural al ampliar los límites de la escala del modelo.
Deje un comentario