Nous ne sommes probablement qu'au début d'une nouvelle révolution de l'IA générative.
L'intelligence artificielle générative fait référence à des algorithmes et à des modèles capables de créer du contenu. La sortie de ces modèles comprend du texte, de l'audio et des images qui peuvent souvent être confondus avec une véritable sortie humaine.
Des applications telles que ChatGPT ont montré que l'IA générative n'est pas une simple nouveauté. L'IA est désormais capable de suivre des instructions détaillées et semble avoir une compréhension approfondie du fonctionnement du monde.
Mais comment en sommes-nous arrivés là ? Dans ce guide, nous passerons en revue certaines des principales percées de la recherche en IA qui ont ouvert la voie à cette nouvelle et passionnante révolution générative de l'IA.
L'essor des réseaux de neurones
Vous pouvez retracer les origines de l'IA moderne jusqu'à la recherche sur apprentissage profond et réseaux de neurones dès 2012.
Cette année-là, Alex Krizhevsky et son équipe de l'Université de Toronto ont réussi à mettre au point un algorithme très précis capable de classer des objets.
Les réseau de neurones à la pointe de la technologie, connu maintenant sous le nom d'AlexNet, a pu classer des objets dans la base de données visuelle ImageNet avec un taux d'erreur beaucoup plus faible que le second.
Les réseaux de neurones sont des algorithmes qui utilisent un réseau de fonctions mathématiques pour apprendre un comportement particulier basé sur certaines données d'entraînement. Par exemple, vous pouvez alimenter un réseau de neurones en données médicales afin d'entraîner le modèle à diagnostiquer une maladie comme le cancer.
L'espoir est que le réseau de neurones trouve lentement des modèles dans les données et devienne plus précis lorsqu'il reçoit de nouvelles données.
AlexNet était une application révolutionnaire d'un réseau de neurones convolutifs ou CNN. Le mot-clé «convolutionnel» fait référence à l'ajout de couches convolutives qui mettent davantage l'accent sur les données plus proches les unes des autres.
Alors que les CNN étaient déjà une idée dans les années 1980, ils n'ont commencé à gagner en popularité qu'au début des années 2010 lorsque la dernière technologie GPU a poussé la technologie vers de nouveaux sommets.
Le succès des CNN dans le domaine de vision par ordinateur conduit à plus d'intérêt pour la recherche sur les réseaux de neurones.
Des géants de la technologie comme Google et Facebook ont décidé de rendre publics leurs propres frameworks d'IA. API de haut niveau telles que Keras a donné aux utilisateurs une interface conviviale pour expérimenter les réseaux de neurones profonds.
Les CNN étaient excellents pour la reconnaissance d'images et l'analyse vidéo, mais avaient du mal à résoudre des problèmes linguistiques. Cette limitation du traitement du langage naturel peut exister parce que la façon dont les images et le texte sont en fait des problèmes fondamentalement différents.
Par exemple, si vous avez un modèle qui classe si une image contient un feu de circulation, le feu de circulation en question peut apparaître n'importe où dans l'image. Cependant, ce type de clémence ne fonctionne pas bien dans la langue. La phrase « Bob a mangé du poisson » et « Le poisson a mangé Bob » ont des significations très différentes malgré l'utilisation des mêmes mots.
Il était devenu évident que les chercheurs devaient trouver une nouvelle approche pour résoudre les problèmes impliquant le langage humain.
Les transformateurs changent tout
Dans 2017, un document de recherche intitulé "Attention Is All You Need" proposait un nouveau type de réseau : le Transformer.
Alors que les CNN fonctionnent en filtrant à plusieurs reprises de petites portions d'une image, les transformateurs connectent chaque élément des données avec tous les autres éléments. Les chercheurs appellent ce processus « l'attention sur soi ».
Lorsque vous essayez d'analyser des phrases, les CNN et les transformateurs fonctionnent très différemment. Alors qu'un CNN se concentrera sur la formation de liens avec des mots proches les uns des autres, un transformateur créera des liens entre chaque mot d'une phrase.
Le processus d'auto-attention fait partie intégrante de la compréhension du langage humain. En faisant un zoom arrière et en regardant comment la phrase entière s'emboîte, les machines peuvent avoir une compréhension plus claire de la structure de la phrase.
Une fois les premiers modèles de transformateurs publiés, les chercheurs ont rapidement utilisé la nouvelle architecture pour tirer parti de l'incroyable quantité de données textuelles trouvées sur Internet.
GPT-3 et Internet
En 2020, OpenAI GPT-3 modèle a montré à quel point les transformateurs peuvent être efficaces. GPT-3 a pu produire un texte qui semble presque impossible à distinguer d'un humain. Une partie de ce qui a rendu GPT-3 si puissant était la quantité de données de formation utilisées. La majeure partie de l'ensemble de données de pré-formation du modèle provient d'un ensemble de données connu sous le nom de Common Crawl, qui contient plus de 400 milliards de jetons.
Alors que la capacité de GPT-3 à générer un texte humain réaliste était révolutionnaire en soi, les chercheurs ont découvert comment le même modèle peut résoudre d'autres tâches.
Par exemple, le même modèle GPT-3 que vous pouvez utiliser pour générer un tweet peut également vous aider à résumer du texte, à réécrire un paragraphe et à terminer une histoire. Modèles linguistiques sont devenus si puissants qu'ils sont désormais essentiellement des outils à usage général qui suivent tout type de commande.
La nature polyvalente de GPT-3 a permis des applications telles que Copilote GitHub, qui permet aux programmeurs de générer du code de travail à partir d'un anglais simple.
Modèles de diffusion : du texte aux images
Les progrès réalisés avec les transformateurs et le NLP ont également ouvert la voie à l'IA générative dans d'autres domaines.
Dans le domaine de la vision par ordinateur, nous avons déjà expliqué comment l'apprentissage en profondeur permettait aux machines de comprendre les images. Cependant, nous devions encore trouver un moyen pour l'IA de générer des images elles-mêmes plutôt que de simplement les classer.
Les modèles d'image génératifs tels que DALL-E 2, Stable Diffusion et Midjourney sont devenus populaires en raison de leur capacité à convertir l'entrée de texte en images.
Ces modèles d'image reposent sur deux aspects clés : un modèle qui comprend la relation entre les images et le texte et un modèle qui peut réellement créer une image haute définition qui correspond à l'entrée.
OpenAI's CLIP (Contrastive Language–Image Pre-training) est un modèle open-source qui vise à résoudre le premier aspect. Étant donné une image, le modèle CLIP peut prédire la description textuelle la plus pertinente pour cette image particulière.
Le modèle CLIP fonctionne en apprenant à extraire des caractéristiques d'image importantes et à créer une représentation plus simple d'une image.
Lorsque les utilisateurs fournissent un exemple d'entrée de texte à DALL-E 2, l'entrée est convertie en une « incorporation d'image » à l'aide du modèle CLIP. L'objectif est maintenant de trouver un moyen de générer une image qui corresponde à l'intégration d'image générée.
Les dernières IA d'image générative utilisent un modèle de diffusion pour s'atteler à la tâche de créer réellement une image. Les modèles de diffusion s'appuient sur des réseaux de neurones qui ont été pré-formés pour savoir comment supprimer le bruit supplémentaire des images.
Au cours de ce processus de formation, le réseau de neurones peut éventuellement apprendre à créer une image haute résolution à partir d'une image de bruit aléatoire. Puisque nous avons déjà un mappage de texte et d'images fourni par CLIP, nous pouvons former un modèle de diffusion sur les intégrations d'images CLIP pour créer un processus permettant de générer n'importe quelle image.
Révolution de l'IA générative : que se passe-t-il ensuite ?
Nous sommes maintenant à un point où des percées dans l'IA générative se produisent tous les deux jours. Alors qu'il devient de plus en plus facile de générer différents types de médias à l'aide de l'IA, devrions-nous nous inquiéter de la façon dont cela pourrait affecter notre société ?
Alors que les soucis de machines remplaçant les travailleurs ont toujours été dans la conversation depuis l'invention de la machine à vapeur, il semble que ce soit un peu différent cette fois-ci.
L'IA générative devient un outil polyvalent susceptible de perturber les industries jugées à l'abri d'une prise de contrôle de l'IA.
Aurons-nous besoin de programmeurs si l'IA peut commencer à écrire du code sans faille à partir de quelques instructions de base ? Les gens embaucheront-ils des créatifs s'ils peuvent simplement utiliser un modèle génératif pour produire le résultat qu'ils souhaitent à moindre coût ?
Il est difficile de prédire l'avenir de la révolution de l'IA générative. Mais maintenant que la boîte de Pandore figurative a été ouverte, j'espère que la technologie permettra des innovations plus excitantes qui peuvent avoir un impact positif sur le monde.
Soyez sympa! Laissez un commentaire