Dreambooth Tutorial for begyndere

Indholdsfortegnelse[Skjule][At vise]

Hvad er Dreambooth?
Funktionalitet
Anvendelse+-
Dreambooth tutorial+-
Dreambooth-begrænsninger
Konklusion

Store tekst-til-billede-modeller gjorde et betydeligt fremskridt i udviklingen af AI ved at producere højkvalitets og diversificeret billedsyntese fra en given tekstprompt.

Disse modeller er ude af stand til at syntetisere unikke repræsentationer af emner i forskellige indstillinger eller at replikere udseendet af emner i et givet referencesæt.

Nyudgivne teknologier som OpenAI's DALL.E2 eller StabilityAI's Stabil diffusion og Midjourney tager allerede internettet med storm. Det er nu tid til at tilpasse resultaterne. Men hvordan?

Google DreamBooth AI er ankommet.

DreamBooth har evnen til at genkende emnet for et billede, dekonstruere det fra dets oprindelige kontekst og derefter præcist syntetisere det til en ny ønsket kontekst. Derudover kan den bruges med nuværende AI-billedgeneratorer.

I denne artikel vil vi tage et dybt kig på DreamBooth, dens brug, dens vejledning, dens begrænsninger og meget mere.

Hvad er Dreambooth?

drømmekabine, en helt ny tekst-til-billede spredningsmodel, blev præsenteret af Google. En skriftlig prompt kan bruges som vejledning af Google DreamBooth AI til at generere en bred vifte af billeder af brugerens valgte emne i forskellige indstillinger.

En forskergruppe fra Boston University og Google udviklede DreamBooth, en banebrydende teknik til at ændre tekst-til-billede-modeller, der har gennemgået omfattende fortræning.

Det overordnede koncept er ret ligetil: de ønsker at øge sprog-vision-ordbogen, således at ualmindelige token-id'er er forbundet med brugerdefinerede emner, som brugerne kan definere.

Hovedmålet med modellen er at forbinde brugere med tekst-til-billede spredningsmodel ved at give dem de ressourcer, de har brug for til at producere fotorealistiske repræsentationer af forekomsterne af deres udvalgte emne.

Som en konsekvens ser denne teknik ud til at fungere godt til at opsummere udfordringer i en række situationer.

Googles DreamBooth adskiller sig fra tidligere tekst-til-billede værktøjer, som f.eks DALL-E2, Stabil diffusionog midt på rejsen, idet det giver brugerne mere kontrol over emnebilledet, før de lader dem manipulere diffusionsmodellen ved hjælp af tekstbaserede input.

Funktionalitet

DreamBooth AI kan muligvis forbedre en tekst-til-billede-model med 3-5 billeder.
Originale fotorealistiske billeder kan oprettes med DreamBooth AI.
Derudover kan DreamBooth AI skabe billeder af et emne fra flere vinkler.

Anvendelse

Kunstgengivelser

Denne opgave adskiller sig specifikt fra stiloverførsel, som bevarer semantikken i kildescenen, mens stilen fra et andet billede inkorporeres i den originale scene.

Kunstgengivelse

Baseret på den kreative tilgang kan AI'en udføre betydelige sceneændringer, samtidig med at identifikations- og emneforekomstens detaljer bevares.

Ejendomsændring

Emneforekomstens karakteristika kan ændres af DreamBooth AI.

Ejendomsændring

Accessorisering

Det stærke kompositoriske forud for generationsmodellen er det, der gør DreamBooth AI's evne til at pryde objekter så interessant.

Accessorisering

Rekontekstualisering

DreamBooth AI kan producere karakteristiske billeder for en bestemt emneforekomst ved at give en trænet model en sætning, der inkluderer den unikke identifikator og klassens navneord.

Rekontekstualisering

Det kan generere motivet i unikke, hidtil uhørte stillinger, artikulationer og scenestruktur i stedet for at ændre omgivelserne. Realistiske refleksioner og skygger, samt interaktioner mellem motivet og omgivende objekter.

Dreambooth tutorial

I denne tutorial vil vi følge Google Collab notesbog, og jeg vil lede dig igennem det, hvilket vil få dig til at forstå og bruge det på egen hånd.

Opsætning af GPU og installation af biblioteker

At finde ud af, hvilke GPU- og VRAM-typer der er tilgængelige, er det første skridt. Det er også nødvendigt at installere nogle få krav og afhængigheder. Tryk blot på afspilningsknappen, og vent derefter på, at det er færdigt.

Opsætning af GPU og installation af biblioteker

Opret en konto på Huggingface og generer et token

Det næste trin er at tilmelde dig en Huggingface-konto. Når du er færdig, skal du klikke på indstillinger i øverste højre hjørne. Du kommer på næste side.

Knusende ansigtstoken

Opret token og navn som anmodet herfra. Tokenet skal kopieres og indsættes i Google-samarbejdet i cellen nedenfor.

Token i Google Colab

Installer xformers

I denne fase kan du blot trykke på afspilningsknappen for at installere xformers ved at klikke på runtime.

Installer Xformers

Opret forbindelse til Drev

Nu skal du bare køre denne celle for at oprette forbindelse til Google Drive.

Opret forbindelse til Drev

Indtast prompten

I den følgende celle skal du blot indtaste prompten.

Indtast prompten

Upload af billeder

I dette trin skal du blot uploade de billeder, du ville træne.

Du kan uploade dine billeder i denne celle

Træn AI-model

Dette er den vigtigste fase, da du vil bruge DreamBooth til at træne en ny AI-model baseret på alle dine indsendte referencebilleder. Du skal begrænse din opmærksomhed til to inputfelter. "—instance prompt" er den første parameter. Du skal angive et meget tydeligt navn her.

Argumentet '–concept list' er det andet kritiske inputfelt. Den skal omdøbes, så den matcher den, der blev brugt i afsnittet 'Skift prompt'.

Træning af AI-model

Generer AI-billeder

AI-billederne vil blive oprettet på dette trin, hvor du kan indtaste tekstinstruktionerne.

Generer AI-billeder

Dreambooth-begrænsninger

Kommandoprompten bliver en barriere for at lave gentagelser i emnet med høje detaljeringsgrader. DreamBooth kan ændre emnets kontekst, men hvis modellen ønsker at ændre emnet selv, er der problemer med rammen.
Et andet problem er overtilpasning af outputbilledet til inputbilledet. Hvis der ikke er nok billeder, kommer emnet muligvis ikke i betragtning eller kan blandes med konteksten af de indsendte billeder. Når der spørges om en kontekst for en ulige generation, sker det samme.

Konklusion

For at producere output fra et enkelt tekstinput kræver hovedparten af tekst-til-billede-modeller millioner af parametre og biblioteker.

DreamBooth forenkler indhentning og brug af indhold for forbrugere ved kun at kræve input fra tre til fem emnefotografier sammen med en tekstmæssig baggrund.

Dreambooth Tutorial for begyndere

Hvad er Dreambooth?

Funktionalitet