Table des matières[Cacher][Montrer]
Un problème classique de l'intelligence artificielle est la recherche d'une machine capable de comprendre le langage humain.
Par exemple, lors de la recherche de "restaurants italiens à proximité" sur votre moteur de recherche préféré, un algorithme doit analyser chaque mot de votre requête et générer les résultats pertinents. Une application de traduction décente devra comprendre le contexte d'un mot particulier en anglais et tenir compte d'une manière ou d'une autre des différences de grammaire entre les langues.
Toutes ces tâches et bien d'autres relèvent du sous-domaine de l'informatique connu sous le nom de Traitement du langage naturel ou PNL. Les progrès de la PNL ont conduit à un large éventail d'applications pratiques allant des assistants virtuels comme Alexa d'Amazon aux filtres anti-spam qui détectent les e-mails malveillants.
La percée la plus récente en PNL est l'idée d'un grand modèle de langage ou LLM. Les LLM tels que GPT-3 sont devenus si puissants qu'ils semblent réussir dans presque toutes les tâches ou cas d'utilisation de la PNL.
Dans cet article, nous examinerons ce que sont exactement les LLM, comment ces modèles sont formés et leurs limites actuelles.
Qu'est-ce qu'un grand modèle de langage ?
À la base, un modèle de langage est simplement un algorithme qui sait dans quelle mesure une séquence de mots est une phrase valide.
Un modèle de langage très simple entraîné sur quelques centaines de livres devrait être capable de dire que "Il est rentré chez lui" est plus valable que "Il est allé chez lui".
Si nous remplaçons l'ensemble de données relativement petit par un ensemble de données massif extrait d'Internet, nous commençons à aborder l'idée d'un grand modèle de langage.
En utilisant les réseaux de neurones, les chercheurs peuvent former des LLM sur une grande quantité de données textuelles. En raison de la quantité de données textuelles que le modèle a vues, le LLM devient très efficace pour prédire le mot suivant dans une séquence.
Le modèle devient si sophistiqué qu'il peut effectuer de nombreuses tâches NLP. Ces tâches incluent la synthèse de texte, la création de nouveau contenu et même la simulation d'une conversation de type humain.
Par exemple, le très populaire modèle de langage GPT-3 est formé avec plus de 175 milliards de paramètres et est considéré comme le modèle de langage le plus avancé à ce jour.
Il est capable de générer du code de travail, d'écrire des articles entiers et de répondre à des questions sur n'importe quel sujet.
Comment les LLM sont-ils formés?
Nous avons brièvement évoqué le fait que les LLM doivent une grande partie de leur puissance à la taille de leurs données de formation. Il y a une raison pour laquelle nous les appelons après tout de « grands » modèles de langage.
Pré-formation avec une architecture de transformateur
Au cours de la phase de pré-formation, les LLM sont initiés aux données textuelles existantes pour apprendre la structure générale et les règles d'une langue.
Au cours des dernières années, les LLM ont été pré-formés sur des ensembles de données qui couvrent une partie importante de l'Internet public. Par exemple, le modèle de langage de GPT-3 a été formé sur des données de la Exploration commune ensemble de données, un corpus de publications Web, de pages Web et de livres numérisés extraits de plus de 50 millions de domaines.
L'ensemble de données massif est ensuite introduit dans un modèle connu sous le nom de transformateur. Les transformateurs sont un type de réseau de neurones profonds qui fonctionne le mieux pour les données séquentielles.
Les transformateurs utilisent un architecture codeur-décodeur pour gérer les entrées et les sorties. Essentiellement, le transformateur contient deux réseaux de neurones : un encodeur et un décodeur. L'encodeur peut extraire la signification du texte d'entrée et le stocker sous forme de vecteur. Le décodeur reçoit alors le vecteur et produit son interprétation du texte.
Cependant, le concept clé qui a permis à l'architecture du transformateur de si bien fonctionner est l'ajout d'un mécanisme d'auto-attention. Le concept d'auto-attention a permis au modèle de prêter attention aux mots les plus importants d'une phrase donnée. Le mécanisme considère même les poids entre les mots qui sont éloignés séquentiellement.
Un autre avantage de l'auto-attention est que le processus peut être parallélisé. Au lieu de traiter les données séquentielles dans l'ordre, les modèles de transformateur peuvent traiter toutes les entrées en même temps. Cela permet aux transformateurs de s'entraîner relativement rapidement sur d'énormes quantités de données par rapport à d'autres méthodes.
Réglage fin
Après la phase de pré-formation, vous pouvez choisir d'introduire un nouveau texte sur lequel le LLM de base pourra s'entraîner. Nous appelons ce processus réglage fin et est souvent utilisé pour améliorer encore le résultat du LLM sur une tâche spécifique.
Par exemple, vous pouvez utiliser un LLM pour générer du contenu pour votre compte Twitter. Nous pouvons fournir au modèle plusieurs exemples de vos tweets précédents pour lui donner une idée du résultat souhaité.
Il existe différents types de réglage fin.
Apprentissage peu poussé fait référence au processus consistant à donner à un modèle un petit nombre d'exemples dans l'espoir que le modèle de langage trouvera comment produire une sortie similaire. Apprentissage unique est un processus similaire, sauf qu'un seul exemple est fourni.
Limites des grands modèles de langage
Les LLM tels que GPT-3 sont capables d'effectuer un grand nombre de cas d'utilisation même sans réglage fin. Cependant, ces modèles viennent toujours avec leur propre ensemble de limitations.
Absence de compréhension sémantique du monde
En surface, les LLM semblent faire preuve d'intelligence. Cependant, ces modèles ne fonctionnent pas de la même façon que les cerveau humain fait. Les LLM reposent uniquement sur des calculs statistiques pour générer des résultats. Ils n'ont pas la capacité de raisonner des idées et des concepts par eux-mêmes.
Pour cette raison, un LLM peut produire des réponses absurdes simplement parce que les mots semblent "corrects" ou "statistiquement probables" lorsqu'ils sont placés dans cet ordre particulier.
Hallucinations
Des modèles comme GPT-3 souffrent également de réponses inexactes. Les LLM peuvent souffrir d'un phénomène connu sous le nom de hallucination où les modèles produisent une réponse factuellement incorrecte sans aucune conscience que la réponse n'a aucun fondement dans la réalité.
Par exemple, un utilisateur peut demander au modèle d'expliquer les réflexions de Steve Jobs sur le dernier iPhone. Le modèle peut générer une citation à partir de rien sur la base de ses données de formation.
Biais et connaissances limitées
Comme de nombreux autres algorithmes, les grands modèles de langage sont susceptibles d'hériter des biais présents dans les données d'apprentissage. Alors que nous commençons à compter davantage sur les LLM pour récupérer des informations, les développeurs de ces modèles devraient trouver des moyens d'atténuer les effets potentiellement néfastes des réponses biaisées.
Dans une capacité similaire, les angles morts des données de formation du modèle entraveront également le modèle lui-même. Actuellement, les grands modèles linguistiques mettent des mois à s'entraîner. Ces modèles reposent également sur des ensembles de données dont la portée est limitée. C'est pourquoi ChatGPT n'a qu'une connaissance limitée des événements qui se sont produits après 2021.
Conclusion
Les grands modèles de langage ont le potentiel de vraiment changer la façon dont nous interagissons avec la technologie et notre monde en général.
La grande quantité de données disponibles sur Internet a donné aux chercheurs un moyen de modéliser les complexités du langage. Cependant, en cours de route, ces modèles linguistiques semblent avoir acquis une compréhension humaine du monde tel qu'il est.
Alors que le public commence à faire confiance à ces modèles de langage pour fournir une sortie précise, les chercheurs et les développeurs trouvent déjà des moyens d'ajouter des garde-fous afin que la technologie reste éthique.
Selon vous, quel est l'avenir des LLM?
Soyez sympa! Laissez un commentaire