Table des matières[Cacher][Montrer]
Les grands modèles texte-image ont fait une avancée significative dans le développement de l'IA en produisant une synthèse d'images diversifiée et de haute qualité à partir d'une invite de texte donnée.
Ces modèles sont incapables de synthétiser des représentations uniques de sujets dans divers contextes ou de reproduire l'apparence de sujets dans un ensemble de référence donné.
Technologies récemment publiées comme DALL.E2 d'OpenAI ou StabilityAI Diffusion stable et Midjourney prennent déjà d'assaut Internet. Il est maintenant temps de personnaliser les résultats. Mais comment ?
Google DreamBooth AI est arrivé.
DreamBooth a la capacité de reconnaître le sujet d'une image, de la déconstruire de son contexte d'origine, puis de la synthétiser avec précision dans un nouveau contexte souhaité. De plus, il peut être utilisé avec les générateurs d'images AI actuels.
Dans cet article, nous examinerons en profondeur DreamBooth, son utilisation, son didacticiel, ses limites et bien plus encore.
Qu'est-ce que Dreambooth ?
cabine de rêve, un tout nouveau modèle de diffusion texte-image, a été présenté par Google. Une invite écrite peut être utilisée comme guide par Google DreamBooth AI pour générer une large gamme de photos du sujet sélectionné par l'utilisateur dans différents paramètres.
Un groupe de recherche de l'Université de Boston et de Google a développé DreamBooth, une technique de pointe pour modifier des modèles de texte en image qui ont subi une pré-formation approfondie.
Le concept global est assez simple : ils veulent augmenter le dictionnaire de vision du langage de sorte que des identifiants de jeton inhabituels soient associés à des sujets personnalisés que les utilisateurs peuvent définir.
L'objectif principal du modèle est de connecter les utilisateurs au modèle de diffusion texte-image en leur donnant les ressources dont ils ont besoin pour produire des représentations photoréalistes des instances de leur sujet sélectionné.
Par conséquent, cette technique semble bien fonctionner pour résumer les défis dans un éventail de situations.
DreamBooth de Google diffère des précédents outils de conversion de texte en image, tels que DALL-E2, Diffusion stable ainsi que À mi-parcours, en ce sens qu'il donne aux utilisateurs plus de contrôle sur l'image du sujet avant de les laisser manipuler le modèle de diffusion à l'aide d'entrées textuelles.
Fonctionnalités:
- DreamBooth AI peut améliorer un modèle texte-image avec 3 à 5 images.
- Des photos photoréalistes originales peuvent être créées avec DreamBooth AI.
- De plus, DreamBooth AI peut créer des photos d'un sujet sous plusieurs angles.
Application
Rendus d'art
Cette tâche diffère spécifiquement du transfert de style, qui conserve la sémantique de la scène source tout en incorporant le style d'une autre image dans la scène d'origine.
Sur la base de l'approche créative, l'IA peut effectuer des modifications importantes de la scène tout en conservant l'identification et les spécificités de l'instance du sujet.
Modification de propriété
Les caractéristiques de l'instance sujet peuvent être modifiées par DreamBooth AI.
Accessoirisation
La forte composition avant le modèle de génération est ce qui rend la capacité de DreamBooth AI à orner des objets si intéressante.
Recontextualisation
DreamBooth AI peut produire des images distinctives pour une certaine instance de sujet en donnant à un modèle formé une phrase qui comprend l'identifiant unique et le nom de la classe.
Il peut générer le sujet dans des postures, des articulations et une structure de scène uniques et inédites plutôt que de modifier l'environnement. Des reflets et des ombres réalistes, ainsi que des interactions entre le sujet et les objets environnants.
Tutoriel Dreambooth
Dans ce tutoriel, nous suivrons la Carnet de notes Google Collab, et je vous guiderai à travers, ce qui vous permettra de le comprendre et de l'utiliser par vous-même.
Configuration du GPU et installation des bibliothèques
Découvrir quels types de GPU et de VRAM sont disponibles est la première étape. L'installation de quelques exigences et dépendances est également nécessaire. Appuyez simplement sur le bouton de lecture, puis attendez qu'il se termine.
Créez un compte sur Huggingface et générez un jeton
L'étape suivante consiste à créer un compte Huggingface. Lorsque vous avez terminé, cliquez sur Paramètres dans le coin supérieur droit. Vous arriverez sur la page suivante.
Créez le jeton et le nom comme demandé à partir d'ici. Le jeton doit être copié et collé dans la collaboration Google dans la cellule ci-dessous.
Installer les xformers
Dans cette étape, vous pouvez simplement appuyer sur le bouton de lecture pour installer xformers en cliquant sur le runtime.
Se connecter à Drive
Maintenant, il vous suffit d'exécuter cette cellule pour vous connecter à Google Drive.
Entrez l'invite
Dans la cellule suivante, il vous suffit de saisir l'invite.
Téléchargement de photos
Dans cette étape, il vous suffit de télécharger les images que vous vouliez former.
Entraîner le modèle d'IA
Il s'agit de la phase la plus importante, car vous utiliserez DreamBooth pour former un nouveau modèle d'IA basé sur toutes vos photographies de référence soumises. Vous devez limiter votre attention à deux champs de saisie. "-invite d'instance" est le premier paramètre. Vous devez fournir un nom très distinct ici.
L'argument '–concept list' est le deuxième champ d'entrée critique. Il doit être renommé pour correspondre à celui utilisé dans la section 'Modifier l'invite'.
Générer des images IA
Les images AI seront créées à ce stade, où vous pourrez saisir les instructions textuelles.
Limitations de Dreambooth
- L'invite de commande devient un obstacle à la réalisation d'itérations dans le sujet avec des niveaux de détail élevés. DreamBooth peut changer le contexte du sujet, mais si le modèle souhaite changer le sujet lui-même, il y a des problèmes avec le cadre.
- Un autre problème est le surajustement de l'image de sortie à l'image d'entrée. S'il n'y a pas assez d'images fournies, le sujet peut ne pas être pris en compte ou peut être mélangé avec le contexte des images soumises. Lorsqu'un contexte pour une génération impaire est demandé, la même chose se produit.
Conclusion
Pour produire des sorties à partir d'une seule entrée de texte, la plupart des modèles texte-image nécessitent des millions de paramètres et de bibliothèques.
DreamBooth simplifie l'acquisition et l'utilisation de contenu pour les consommateurs en ne nécessitant que la saisie de trois à cinq photographies thématiques avec un arrière-plan textuel.
Soyez sympa! Laissez un commentaire