Table des matières[Cacher][Montrer]
Vous savez probablement qu'un ordinateur peut décrire une image.
Par exemple, une image d'un chien jouant avec vos enfants peut être traduite par « chien et enfants dans le jardin ». Mais saviez-vous que l'inverse est désormais également possible ? Vous tapez quelques mots et la machine génère une nouvelle image.
Contrairement à une recherche Google, qui recherche des photographies existantes, tout est frais. Ces dernières années, OpenAI a été l'une des principales organisations, rapportant des résultats étonnants.
Ils forment leurs algorithmes sur des bases de données massives de textes et d'images. Ils ont publié un article sur leur modèle d'image GLIDE, qui a été formé sur des centaines de millions de photos. En termes de photoréalisme, il surpasse leur modèle précédent "DALL-E".
Dans cet article, nous examinerons GLIDE d'OpenAI, l'une des nombreuses initiatives fascinantes visant à produire et à modifier des images photoréalistes avec des modèles de diffusion guidés par du texte. Commençons.
Qu’est ce qu' Ouvrir AI Glide?
Alors que la plupart des images peuvent être décrites avec des mots, la création d'images à partir d'entrées de texte nécessite des connaissances spécialisées et beaucoup de temps.
Permettre à un agent d'intelligence artificielle de produire des images photoréalistes à partir d'invites en langage naturel permet non seulement aux utilisateurs de créer un matériel visuel riche et diversifié avec une facilité sans précédent, mais permet également un raffinement itératif plus simple et un contrôle plus fin des images créées.
GLIDE peut être utilisé pour modifier des photos existantes en utilisant des invites de texte en langage naturel pour insérer de nouveaux objets, créer des ombres et des reflets, effectuer des peinture d'image, Et ainsi de suite.
Il peut également transformer des dessins au trait de base en photographies photoréalistes, et il possède des capacités exceptionnelles de fabrication et de réparation sans échantillon pour des situations complexes.
Des recherches récentes ont démontré que les modèles de diffusion basés sur la vraisemblance peuvent également produire des images synthétiques de haute qualité, en particulier lorsqu'ils sont combinés à une approche de guidage qui équilibre variété et fidélité.
OpenAI a publié un modèle de diffusion guidée en mai, ce qui permet aux modèles de diffusion d'être conditionnels aux étiquettes d'un classifieur. GLIDE améliore ce succès en apportant la diffusion guidée au problème de la création d'images textuelles.
Après avoir formé un modèle de diffusion GLIDE de 3.5 milliards de paramètres à l'aide d'un encodeur de texte pour conditionner les descriptions en langage naturel, les chercheurs ont testé deux stratégies de guidage alternatives : le guidage CLIP et le guidage sans classificateur.
CLIP est une technique évolutive pour apprendre des représentations conjointes de texte et d'images qui fournit un score basé sur la proximité d'une image par rapport à une légende.
L'équipe a utilisé cette stratégie dans ses modèles de diffusion en remplaçant le classifieur par un modèle CLIP qui « guide » les modèles. Pendant ce temps, le guidage sans classificateur est une stratégie pour diriger des modèles de diffusion qui n'impliquent pas la formation d'un classificateur séparé.
Architecture GLIDE
L'architecture GLIDE se compose de trois composants : un modèle de diffusion ablaté (ADM) formé pour générer une image 64 × 64, un modèle de texte (transformateur) qui influence la génération d'image via une invite de texte et un modèle de suréchantillonnage qui convertit notre petit 64 × 64 images à 256 x 256 pixels plus interprétables.
Les deux premiers composants fonctionnent ensemble pour contrôler le processus de génération d'image afin qu'il reflète correctement l'invite de texte, tandis que le dernier est nécessaire pour rendre les images que nous créons plus faciles à comprendre. Le projet GLIDE a été inspiré par une rapport publié en 2021 qui ont montré que les techniques ADM surpassaient les modèles génératifs de pointe actuellement populaires en termes de qualité d'échantillon d'image.
Pour l'ADM, les auteurs de GLIDE ont utilisé le même modèle ImageNet 64 x 64 que Dhariwal et Nichol, mais avec 512 canaux au lieu de 64. Le modèle ImageNet a donc environ 2.3 milliards de paramètres.
L'équipe GLIDE, contrairement à Dhariwal et Nichol, voulait avoir un plus grand contrôle direct sur le processus de génération d'images, ils ont donc combiné le modèle visuel avec un transformateur activé par l'attention. GLIDE vous donne un certain contrôle sur l'image générant la sortie du processus en traitant les invites de saisie de texte.
Ceci est accompli en entraînant le modèle de transformateur sur un ensemble de données suffisamment volumineux de photos et de légendes (similaire à celui utilisé dans le projet DALL-E).
Le texte est initialement encodé en une série de K tokens afin de le conditionner. Après cela, les jetons sont chargés dans un modèle de transformateur. La sortie du transformateur peut alors être utilisée de deux manières. Pour le modèle ADM, l'intégration de jeton finale est utilisée à la place de l'intégration de classe.
Deuxièmement, la couche finale des incorporations de jetons - une série de vecteurs de caractéristiques - est projetée indépendamment aux dimensions de chaque couche d'attention dans le modèle ADM et concaténée à chaque contexte d'attention.
En réalité, cela permet au modèle ADM de produire une image à partir de nouvelles combinaisons de jetons de texte similaires d'une manière unique et photoréaliste, basée sur sa compréhension apprise des mots d'entrée et de leurs images associées. Ce transformateur de codage de texte contient 1.2 milliard de paramètres et utilise 24 blocs restants d'une largeur de 2048.
Enfin, le modèle de diffusion du suréchantillonneur comprend environ 1.5 milliard de paramètres et diffère du modèle de base en ce que son encodeur de texte est plus petit, avec une largeur de 1024 et 384 canaux de base, par rapport au modèle de base. Ce modèle, comme son nom l'indique, aide à la mise à niveau de l'échantillon afin d'améliorer l'interprétabilité pour les machines et les humains.
Modèle de diffusion
GLIDE génère des images en utilisant sa propre version de l'ADM (ADM-G pour « guidé »). Le modèle ADM-G est une modification du modèle de diffusion U-net. Un modèle de diffusion U-net diffère considérablement des techniques de synthèse d'images les plus courantes telles que VAE, GAN et les transformateurs.
Ils construisent une chaîne de Markov d'étapes de diffusion pour injecter progressivement du bruit aléatoire dans les données, puis apprennent à inverser le processus de diffusion et à reconstruire les échantillons de données requis à partir du bruit seul. Il fonctionne en deux étapes : diffusion directe et diffusion inverse.
La méthode de diffusion vers l'avant, étant donné un point de données de la vraie distribution de l'échantillon, ajoute une petite quantité de bruit à l'échantillon sur une série d'étapes prédéfinies. Au fur et à mesure que les pas augmentent en taille et approchent de l'infini, l'échantillon perd toutes les caractéristiques reconnaissables et la séquence commence à ressembler à une courbe gaussienne isotrope.
Lors de la rétrodiffusion phase, le modèle de diffusion apprend à inverser l'influence du bruit ajouté sur les images et ramène l'image produite à sa forme d'origine en tentant de ressembler à la distribution d'échantillon d'entrée d'origine.
Un modèle complet pourrait le faire avec une entrée de bruit gaussien réel et une invite. La méthode ADM-G diffère de la précédente en ce qu'un modèle, CLIP ou un transformateur personnalisé, impacte la phase de diffusion vers l'arrière en utilisant les jetons d'invite de texte qui sont entrés.
Capacités de glisse
1. Génération d'image
L'utilisation la plus populaire et la plus largement utilisée de GLIDE sera probablement la synthèse d'images. Bien que les images soient modestes et que GLIDE ait des difficultés avec les formes animales/humaines, le potentiel de production d'images uniques est presque infini.
Il peut créer des photos d'animaux, de célébrités, de paysages, de bâtiments et bien plus encore, et il peut le faire dans une variété de styles artistiques ainsi que de manière photoréaliste. Les auteurs des chercheurs affirment que GLIDE est capable d'interpréter et d'adapter une grande variété d'entrées textuelles dans un format visuel, comme le montrent les exemples ci-dessous.
2. Glisser la peinture
L'inpainting photo automatique de GLIDE est sans doute l'utilisation la plus fascinante. GLIDE peut prendre une image existante en entrée, la traiter en tenant compte de l'invite de texte pour les emplacements qui doivent être modifiés, puis apporter facilement des modifications actives à ces parties.
Il doit être utilisé conjointement avec un modèle d'édition, tel que SDEdit, pour produire des résultats encore meilleurs. À l'avenir, les applications qui tirent parti de telles fonctionnalités pourraient être cruciales pour développer des approches de modification d'image sans code.
Conclusion
Maintenant que nous avons parcouru le processus, vous devez comprendre les principes fondamentaux du fonctionnement de GLIDE, ainsi que l'étendue de ses capacités de création d'images et de modification d'images.
Soyez sympa! Laissez un commentaire