De grands réseaux de neurones qui ont été entraînés pour la reconnaissance et la génération du langage ont démontré des résultats exceptionnels dans une variété de tâches ces dernières années. GPT-3 a prouvé que les grands modèles de langage (LLM) pouvaient être utilisés pour un apprentissage en quelques coups et obtenir d'excellents résultats sans nécessiter de données détaillées spécifiques à une tâche ni modifier les paramètres du modèle.
Google, le géant technologique de la Silicon Valley, a introduit PaLM, ou Pathways Language Model, dans l'industrie technologique mondiale en tant que modèle de langage d'IA de nouvelle génération. Google a intégré une nouvelle intelligence artificielle architecture dans PaLM avec des objectifs stratégiques pour améliorer la qualité du modèle de langage AI.
Dans cet article, nous examinerons en détail l'algorithme Palm, y compris les paramètres utilisés pour l'entraîner, le problème qu'il résout, et bien plus encore.
Qu’est ce qu' Algorithme PaLM de Google?
Le modèle de langage Pathways est ce que Palmier représente. Il s'agit d'un nouvel algorithme développé par Google afin de renforcer l'architecture Pathways AI. L'objectif principal de la structure est de faire un million d'activités distinctes à la fois.
Celles-ci incluent tout, du déchiffrement de données complexes au raisonnement déductif. PaLM a la capacité de surpasser l'état de l'art actuel de l'IA ainsi que les humains dans les tâches de langage et de raisonnement.
Cela inclut l'apprentissage Few-Shot, qui imite la façon dont les humains apprennent de nouvelles choses et combinent diverses connaissances pour relever de nouveaux défis qui n'ont jamais été vus auparavant, avec l'avantage d'une machine qui peut utiliser toutes ses connaissances pour résoudre de nouveaux défis ; un exemple de cette compétence dans PalM est sa capacité à expliquer une blague qu'il n'a jamais entendue auparavant.
PaLM a démontré de nombreuses compétences révolutionnaires sur une variété de tâches difficiles, y compris la compréhension et la création de la langue, les activités liées au code arithmétique en plusieurs étapes, le raisonnement de bon sens, la traduction et bien d'autres.
Il a démontré sa capacité à résoudre des problèmes complexes à l'aide d'ensembles NLP multilingues. PaLM peut être utilisé par le marché mondial de la technologie pour différencier les causes et les effets, les combinaisons conceptuelles, les jeux distincts et bien d'autres choses.
Il peut également générer des explications approfondies pour de nombreux contextes en utilisant l'inférence logique en plusieurs étapes, un langage approfondi, des connaissances globales et d'autres techniques.
Comment Google a-t-il développé l'algorithme PaLM ?
Pour les performances révolutionnaires de Google dans PaLM, les voies doivent évoluer jusqu'à 540 milliards de paramètres. Il est reconnu comme le seul modèle capable de généraliser efficacement et efficacement dans de nombreux domaines. Pathways chez Google se consacre au développement de l'informatique distribuée pour les accélérateurs.
PaLM est un modèle de transformateur de décodeur uniquement qui a été formé à l'aide du système Pathways. PaLM a réussi à atteindre des performances de pointe en quelques prises de vue sur plusieurs charges de travail, selon Google. PaLM a utilisé le système Pathways pour étendre la formation à la plus grande configuration de système basée sur le TPU, connue sous le nom de puces 6144 pour la première fois.
Un ensemble de données d'entraînement pour le modèle de langue d'IA est composé d'un mélange d'ensembles de données en anglais et d'autres ensembles de données multilingues. Avec un vocabulaire "sans perte", il contient du contenu Web de haute qualité, des discussions, des livres, du code GitHub, Wikipedia et bien d'autres. Le vocabulaire sans perte est reconnu pour conserver les espaces et diviser les caractères Unicode qui ne sont pas dans le vocabulaire en octets.
PaLM a été développé par Google et Pathways en utilisant une architecture de modèle de transformateur standard et une configuration de décodeur qui comprenait l'activation SwiGLU, des couches parallèles, des intégrations RoPE, des intégrations d'entrée-sortie partagées, une attention multi-requêtes et aucun biais ni vocabulaire. PaLM, d'autre part, est sur le point de fournir une base solide au modèle de langage IA de Google et Pathways.
Paramètres utilisés pour former PaLM
L'année dernière, Google a lancé Pathways, un modèle unique qui peut être formé pour faire des milliers, voire des millions de choses, surnommé "l'architecture d'IA de nouvelle génération", car il peut surmonter les limites des modèles existants d'être formés pour faire une seule chose. . Plutôt que d'étendre les capacités des modèles actuels, les nouveaux modèles sont souvent construits de bas en haut pour accomplir une seule tâche.
En conséquence, ils ont créé des dizaines de milliers de modèles pour des dizaines de milliers d'activités différentes. Il s'agit d'une tâche chronophage et gourmande en ressources.
Google a prouvé via Pathways qu'un seul modèle pouvait gérer une variété d'activités et s'appuyer sur et combiner les talents actuels pour apprendre de nouvelles tâches plus rapidement et plus efficacement.
Les modèles multimodaux qui incluent la vision, la compréhension linguistique et le traitement auditif en même temps pourraient être activés par des voies. Pathways Language Model (PaLM) permet la formation d'un modèle unique sur de nombreux pods TPU v4 grâce à son modèle de 540 milliards de paramètres.
PaLM, un modèle Transformer à décodeur dense, surpasse les performances de pointe en quelques prises de vue sur une large gamme de charges de travail. PaLM est en cours de formation sur deux pods TPU v4 qui sont reliés via un réseau de centre de données (DCN).
Il tire parti à la fois du modèle et du parallélisme des données. Les chercheurs ont utilisé 3072 processeurs TPU v4 dans chaque pod pour PaLM, qui étaient connectés à 768 hôtes. Selon les chercheurs, il s'agit de la plus grande configuration de TPU jamais divulguée, ce qui leur permet d'adapter la formation sans utiliser le parallélisme du pipeline.
Le revêtement de tuyaux est le processus de collecte d'instructions du processeur via un pipeline en général. Les couches du modèle sont divisées en phases qui peuvent être traitées en parallèle via le parallélisme du modèle de pipeline (ou parallélisme de pipeline).
La mémoire d'activation est envoyée à l'étape suivante lorsqu'une étape termine le passage vers l'avant pour un micro-lot. Les gradients sont alors renvoyés vers l'arrière lorsque l'étage suivant termine sa propagation vers l'arrière.
Capacités révolutionnaires de PaLM
PaLM affiche des capacités révolutionnaires dans une gamme de tâches difficiles. Voici plusieurs exemples :
1. Création et compréhension du langage
PaLM a été testé sur 29 tâches PNL différentes en anglais.
Sur une base de quelques coups, PaLM 540B a surpassé les grands modèles précédents tels que GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla et LaMDA sur 28 des 29 tâches, y compris les tâches de réponse aux questions de la variante à livre fermé du domaine ouvert , tâches de cloze et de complétion de phrases, tâches de style Winograd, tâches de compréhension de lecture en contexte, tâches de raisonnement de bon sens, tâches SuperGLUE et inférence naturelle.
Sur plusieurs tâches BIG-bench, PaLM démontre d'excellentes compétences d'interprétation et de génération du langage naturel. Par exemple, le modèle peut faire la distinction entre la cause et l'effet, comprendre les combinaisons conceptuelles dans certaines situations et même deviner le film à partir d'un emoji. Même si seulement 22 % du corpus de formation n'est pas en anglais, PaLM fonctionne bien sur les benchmarks multilingues de la PNL, y compris la traduction, en plus des tâches de la PNL en anglais.
2. Raisonnement
PaLM allie la taille du modèle à la chaîne de pensée incitant à démontrer des compétences révolutionnaires sur les défis de raisonnement nécessitant un raisonnement arithmétique ou de bon sens en plusieurs étapes.
Les LLM précédents, tels que Gopher, bénéficiaient moins de la taille du modèle en termes d'amélioration des performances. Le PaLM 540B avec incitation à la chaîne de pensée s'est bien comporté sur trois ensembles de données arithmétiques et deux de réflexion de bon sens.
PaLM surpasse le meilleur score précédent de 55%, qui a été obtenu en affinant le modèle GPT-3 175B avec un ensemble de formation de 7500 problèmes et en le combinant avec une calculatrice et un vérificateur externes pour résoudre 58% des problèmes dans GSM8K, un référence de milliers de questions mathématiques difficiles au niveau de l'école primaire à l'aide d'invites à 8 coups.
Ce nouveau score est d'autant plus remarquable qu'il se rapproche de la moyenne des 60 % d'obstacles rencontrés par les 9-12 ans. Il peut également répondre à des blagues originales qui ne sont pas disponibles sur Internet.
3. Génération de code
Il a également été démontré que les LLM fonctionnent bien dans les tâches de codage, notamment la génération de code à partir d'une description en langage naturel (texte en code), la traduction de code entre les langues et la résolution des erreurs de compilation. Bien qu'il n'ait que 5 % de code dans l'ensemble de données de pré-formation, PaLM 540B fonctionne bien sur les tâches de codage et de langage naturel dans un seul modèle.
Ses performances en quelques coups sont incroyables, car il correspond au Codex 12B affiné tout en s'entraînant avec 50 fois moins de code Python. Cette découverte confirme les découvertes antérieures selon lesquelles les modèles plus grands peuvent être plus efficaces que les modèles plus petits, car ils peuvent transférer plus efficacement l'apprentissage de plusieurs langages de programmation et des données en langage clair.
Conclusion
PaLM montre la capacité du système Pathways à s'adapter à des milliers de processeurs d'accélérateur sur deux pods TPU v4 en formant efficacement un modèle de 540 milliards de paramètres avec une recette bien étudiée et bien établie d'un modèle de transformateur dense à décodeur uniquement.
Il atteint des performances révolutionnaires en quelques prises de vue dans une gamme de défis de traitement du langage naturel, de raisonnement et de codage en repoussant les limites de l'échelle du modèle.
Soyez sympa! Laissez un commentaire