Tutoriel Dreambooth pour débutants

Table des matières[Cacher][Montrer]

Qu'est-ce que Dreambooth ?
Fonctionnalités:
Application+-
Tutoriel Dreambooth+-
Limitations de Dreambooth
Conclusion

Les grands modèles texte-image ont fait une avancée significative dans le développement de l'IA en produisant une synthèse d'images diversifiée et de haute qualité à partir d'une invite de texte donnée.

Ces modèles sont incapables de synthétiser des représentations uniques de sujets dans divers contextes ou de reproduire l'apparence de sujets dans un ensemble de référence donné.

Technologies récemment publiées comme DALL.E2 d'OpenAI ou StabilityAI Diffusion stable et Midjourney prennent déjà d'assaut Internet. Il est maintenant temps de personnaliser les résultats. Mais comment ?

Google DreamBooth AI est arrivé.

DreamBooth a la capacité de reconnaître le sujet d'une image, de la déconstruire de son contexte d'origine, puis de la synthétiser avec précision dans un nouveau contexte souhaité. De plus, il peut être utilisé avec les générateurs d'images AI actuels.

Dans cet article, nous examinerons en profondeur DreamBooth, son utilisation, son didacticiel, ses limites et bien plus encore.

Qu'est-ce que Dreambooth ?

cabine de rêve, un tout nouveau modèle de diffusion texte-image, a été présenté par Google. Une invite écrite peut être utilisée comme guide par Google DreamBooth AI pour générer une large gamme de photos du sujet sélectionné par l'utilisateur dans différents paramètres.

Un groupe de recherche de l'Université de Boston et de Google a développé DreamBooth, une technique de pointe pour modifier des modèles de texte en image qui ont subi une pré-formation approfondie.

Le concept global est assez simple : ils veulent augmenter le dictionnaire de vision du langage de sorte que des identifiants de jeton inhabituels soient associés à des sujets personnalisés que les utilisateurs peuvent définir.

L'objectif principal du modèle est de connecter les utilisateurs au modèle de diffusion texte-image en leur donnant les ressources dont ils ont besoin pour produire des représentations photoréalistes des instances de leur sujet sélectionné.

Par conséquent, cette technique semble bien fonctionner pour résumer les défis dans un éventail de situations.

DreamBooth de Google diffère des précédents outils de conversion de texte en image, tels que DALL-E2, Diffusion stable ainsi que À mi-parcours, en ce sens qu'il donne aux utilisateurs plus de contrôle sur l'image du sujet avant de les laisser manipuler le modèle de diffusion à l'aide d'entrées textuelles.

Fonctionnalités:

DreamBooth AI peut améliorer un modèle texte-image avec 3 à 5 images.
Des photos photoréalistes originales peuvent être créées avec DreamBooth AI.
De plus, DreamBooth AI peut créer des photos d'un sujet sous plusieurs angles.

Application

Rendus d'art

Cette tâche diffère spécifiquement du transfert de style, qui conserve la sémantique de la scène source tout en incorporant le style d'une autre image dans la scène d'origine.

Rendu artistique

Sur la base de l'approche créative, l'IA peut effectuer des modifications importantes de la scène tout en conservant l'identification et les spécificités de l'instance du sujet.

Modification de propriété

Les caractéristiques de l'instance sujet peuvent être modifiées par DreamBooth AI.

Modification de propriété

Accessoirisation

La forte composition avant le modèle de génération est ce qui rend la capacité de DreamBooth AI à orner des objets si intéressante.

Accessoirisation

Recontextualisation

DreamBooth AI peut produire des images distinctives pour une certaine instance de sujet en donnant à un modèle formé une phrase qui comprend l'identifiant unique et le nom de la classe.

Recontextualisation

Il peut générer le sujet dans des postures, des articulations et une structure de scène uniques et inédites plutôt que de modifier l'environnement. Des reflets et des ombres réalistes, ainsi que des interactions entre le sujet et les objets environnants.

Tutoriel Dreambooth

Dans ce tutoriel, nous suivrons la Carnet de notes Google Collab, et je vous guiderai à travers, ce qui vous permettra de le comprendre et de l'utiliser par vous-même.

Configuration du GPU et installation des bibliothèques

Découvrir quels types de GPU et de VRAM sont disponibles est la première étape. L'installation de quelques exigences et dépendances est également nécessaire. Appuyez simplement sur le bouton de lecture, puis attendez qu'il se termine.

Configuration du GPU et installation des bibliothèques

Créez un compte sur Huggingface et générez un jeton

L'étape suivante consiste à créer un compte Huggingface. Lorsque vous avez terminé, cliquez sur Paramètres dans le coin supérieur droit. Vous arriverez sur la page suivante.

Jeton de visage étreignant

Créez le jeton et le nom comme demandé à partir d'ici. Le jeton doit être copié et collé dans la collaboration Google dans la cellule ci-dessous.

Jeton dans Google Colab

Installer les xformers

Dans cette étape, vous pouvez simplement appuyer sur le bouton de lecture pour installer xformers en cliquant sur le runtime.

Installer Xformer

Se connecter à Drive

Maintenant, il vous suffit d'exécuter cette cellule pour vous connecter à Google Drive.

Se connecter au lecteur

Entrez l'invite

Dans la cellule suivante, il vous suffit de saisir l'invite.

Entrez l'invite

Téléchargement de photos

Dans cette étape, il vous suffit de télécharger les images que vous vouliez former.

Vous pouvez télécharger vos images dans cette cellule

Entraîner le modèle d'IA

Il s'agit de la phase la plus importante, car vous utiliserez DreamBooth pour former un nouveau modèle d'IA basé sur toutes vos photographies de référence soumises. Vous devez limiter votre attention à deux champs de saisie. "-invite d'instance" est le premier paramètre. Vous devez fournir un nom très distinct ici.

L'argument '–concept list' est le deuxième champ d'entrée critique. Il doit être renommé pour correspondre à celui utilisé dans la section 'Modifier l'invite'.

Modèle d'IA de formation

Générer des images IA

Les images AI seront créées à ce stade, où vous pourrez saisir les instructions textuelles.

Générer des images IA

Limitations de Dreambooth

L'invite de commande devient un obstacle à la réalisation d'itérations dans le sujet avec des niveaux de détail élevés. DreamBooth peut changer le contexte du sujet, mais si le modèle souhaite changer le sujet lui-même, il y a des problèmes avec le cadre.
Un autre problème est le surajustement de l'image de sortie à l'image d'entrée. S'il n'y a pas assez d'images fournies, le sujet peut ne pas être pris en compte ou peut être mélangé avec le contexte des images soumises. Lorsqu'un contexte pour une génération impaire est demandé, la même chose se produit.

Conclusion

Pour produire des sorties à partir d'une seule entrée de texte, la plupart des modèles texte-image nécessitent des millions de paramètres et de bibliothèques.

DreamBooth simplifie l'acquisition et l'utilisation de contenu pour les consommateurs en ne nécessitant que la saisie de trois à cinq photographies thématiques avec un arrière-plan textuel.

Tutoriel Dreambooth pour les débutants

Qu'est-ce que Dreambooth ?

Fonctionnalités: