Ces dernières années, les modèles d'apprentissage en profondeur sont devenus plus efficaces pour comprendre le langage humain.
Pensez à des projets comme GPT-3, qui est désormais capable de créer des articles et des sites Web entiers. GitHub a récemment introduit Copilote GitHub, un service qui fournit des extraits de code entiers en décrivant simplement le type de code dont vous avez besoin.
Des chercheurs d'OpenAI, Facebook et Google ont travaillé sur des moyens d'utiliser l'apprentissage en profondeur pour gérer une autre tâche : le sous-titrage des images. En utilisant un grand ensemble de données avec des millions d'entrées, ils ont trouvé quelques surprenant résultats.
Dernièrement, ces chercheurs ont essayé d'effectuer la tâche inverse : créer des images à partir d'une légende. Est-il désormais possible de créer une toute nouvelle image à partir d'une description ?
Ce guide explorera deux des modèles de conversion de texte en image les plus avancés : DALL-E 2 d'OpenAI et Imagen AI de Google. Chacun de ces projets a introduit des méthodes révolutionnaires susceptibles de changer la société telle que nous la connaissons.
Mais d'abord, comprenons ce que nous entendons par génération de texte en image.
Qu'est-ce que la génération de texte en image ?
Modèles texte-image permettre aux ordinateurs de créer des images nouvelles et uniques basées sur des invites. Les utilisateurs peuvent désormais fournir une description textuelle d'une image qu'ils souhaitent produire, et le modèle essaiera de créer un visuel qui corresponde le plus possible à cette description.
Les modèles d'apprentissage automatique ont tiré parti de l'utilisation de grands ensembles de données contenant des paires image-légende pour améliorer encore les performances.
La plupart des conversions de texte en image les modèles utilisent un modèle de langage de transformateur pour interpréter les invites. Ce type de modèle est un Réseau neuronal qui essaie d'apprendre le contexte et la signification sémantique du langage naturel.
Ensuite, des modèles génératifs tels que modèles de diffusion et des réseaux antagonistes génératifs sont utilisés pour la synthèse d'images.
Qu'est-ce que DALLE 2 ?
DALL-E2 est un modèle informatique d'OpenAI qui a été publié en avril 2022. Le modèle a été formé sur une base de données de millions d'images étiquetées pour associer des mots et des phrases à des images.
Les utilisateurs peuvent taper une phrase simple, telle que "un chat qui mange des lasagnes", et DALL-E 2 générera sa propre interprétation de ce que la phrase tente de décrire.
En plus de créer des images à partir de zéro, DALL-E 2 peut également éditer des images existantes. Dans l'exemple ci-dessous, DALL-E a pu générer une image modifiée d'une pièce avec un canapé ajouté.
DALL-E 2 n'est qu'un des nombreux projets similaires qu'OpenAI a lancés ces dernières années. Le GPT-3 d'OpenAI est devenu digne d'intérêt lorsqu'il a semblé générer du texte de styles variés.
Actuellement, DALL-E 2 est toujours en test bêta. Les utilisateurs intéressés peuvent s'inscrire pour leur liste d'attente et attendre l'accès.
Comment ça marche?
Bien que les résultats de DALL-E 2 soient impressionnants, vous vous demandez peut-être comment tout cela fonctionne.
DALL-E 2 est un exemple d'implémentation multimodale du projet GPT-3 d'OpenAI.
Tout d'abord, l'invite de texte de l'utilisateur est placée dans un encodeur de texte qui mappe l'invite à un espace de représentation. DALL-E 2 utilise un autre modèle OpenAI appelé CLIP (Contrastive Language-Image Pre-Training) pour obtenir des informations sémantiques à partir du langage naturel.
Ensuite, un modèle connu sous le nom de avant mappe le codage de texte dans un codage d'image. Cet encodage d'image doit capturer les informations sémantiques trouvées dans l'étape d'encodage du texte.
Pour créer l'image réelle, DALL-E 2 utilise un décodeur d'image pour générer un visuel à l'aide d'informations sémantiques et de détails d'encodage d'image. OpenAI utilise une version modifiée du GLISSER modèle pour effectuer la génération d'images. GLIDE s'appuie sur une modèle de diffusion pour créer des images.
L'ajout de GLIDE au modèle DALL-E 2 a permis une sortie plus photoréaliste. Étant donné que le modèle GLIDE est stochastique ou déterminé de manière aléatoire, le modèle DALL-E 2 peut facilement créer des variations en exécutant le modèle encore et encore.
Limites
Malgré les résultats impressionnants du modèle DALL-E 2, il se heurte encore à certaines limites.
Orthographe du texte
Les invites qui essaient de faire en sorte que DALL-E 2 génère du texte révèlent qu'il a des difficultés à épeler les mots. Les experts supposent que cela peut être dû au fait que les informations orthographiques ne font pas partie du ensemble de données d'entraînement.
Raisonnement compositionnel
Les chercheurs observent que DALL-E 2 a encore quelques difficultés avec le raisonnement compositionnel. En termes simples, le modèle peut comprendre les aspects individuels d'une image tout en ayant du mal à comprendre les relations entre ces aspects.
Par exemple, si l'invite "cube rouge au-dessus d'un cube bleu" est donnée, DALL-E générera un cube bleu et un cube rouge avec précision mais ne les placera pas correctement. Il a également été observé que le modèle avait des difficultés avec les invites nécessitant l'extraction d'un nombre spécifique d'objets.
Biais dans l'ensemble de données
Si l'invite ne contient aucun autre détail, il a été observé que DALL-E représente des personnes et des environnements blancs ou occidentaux. Ce biais de représentation se produit en raison de l'abondance d'images centrées sur l'Occident dans l'ensemble de données.
Il a également été observé que le modèle suit les stéréotypes de genre. Par exemple, taper l'invite "hôtesse de l'air" génère principalement des images d'hôtesses de l'air.
Qu'est-ce que Google Imagen AI ?
Google Imagen IA est un modèle qui vise à créer des images photoréalistes à partir de texte saisi. Semblable à DALL-E, le modèle utilise également des modèles de langage de transformateur pour comprendre le texte et s'appuie sur l'utilisation de modèles de diffusion pour créer des images de haute qualité.
Parallèlement à Imagen, Google a également publié une référence pour les modèles de texte en image appelée DrawBench. À l'aide de DrawBench, ils ont pu observer que les évaluateurs humains préféraient la sortie Imagen à d'autres modèles, y compris DALL-E 2.
Comment ça marche?
Semblable à DALL-E, Imagen convertit d'abord l'invite de l'utilisateur en une incorporation de texte via un encodeur de texte figé.
Imagen utilise un modèle de diffusion qui apprend à convertir un motif de bruit en images. La sortie initiale de ces images est de faible résolution et est ensuite passée à travers un autre modèle connu sous le nom de modèle de diffusion à super-résolution pour augmenter la résolution de l'image finale. Le premier modèle de diffusion produit une image de 64 × 64 pixels et est ensuite agrandie en une image haute résolution de 1024 × 1024.
D'après les recherches de l'équipe d'Imagen, de grands modèles de langage figés entraînés uniquement sur des données textuelles sont toujours des encodeurs de texte très efficaces pour la génération de texte en image.
L'étude introduit également le concept de seuillage dynamique. Cette méthode permet aux images d'apparaître plus photoréalistes en augmentant les poids de guidage lors de la génération de l'image.
Performance de DALLE 2 contre Imagen
Les résultats préliminaires du benchmark de Google montrent que les répondants humains préfèrent les images générées par Imagen à DALL-E 2 et à d'autres modèles de texte à image tels que Latent Diffusion et VQGAN+CLIP.
Les résultats de l'équipe Imagen ont également montré que leur modèle était plus performant en orthographe, une faiblesse connue du modèle DALL-E 2.
Cependant, comme Google n'a pas encore rendu public le modèle, il reste à voir à quel point les références de Google sont précises.
Conclusion
La montée en puissance des modèles texte-image photoréalistes est controversée car ces modèles sont mûrs pour une utilisation contraire à l'éthique.
La technologie peut conduire à la création de contenu explicite ou servir d'outil de désinformation. Les chercheurs de Google et d'OpenAI en sont conscients, ce qui explique en partie pourquoi ces technologies ne sont toujours pas accessibles à tous.
Les modèles texte-image ont également des implications économiques importantes. Des professions telles que les mannequins, les photographes et les artistes seront-elles affectées si des modèles tels que DALL-E deviennent courants ?
Pour le moment, ces modèles ont encore des limites. L'examen minutieux de toute image générée par l'IA révélera ses imperfections. Avec OpenAI et Google en concurrence pour les modèles les plus efficaces, ce n'est peut-être qu'une question de temps avant qu'un résultat vraiment parfait ne soit généré : une image qui ne se distingue pas de la réalité.
Selon vous, que se passera-t-il lorsque la technologie ira aussi loin ?
Soyez sympa! Laissez un commentaire