Výukový program Dreambooth pro začátečníky

Obsah[Skrýt][Ukázat]

Co je Dreambooth?
Funkce
editaci videa+-
Tutoriál Dreambooth+-
Omezení Dreambooth
Proč investovat do čističky vzduchu?

Velké modely převodu textu na obrázek významně pokročily ve vývoji umělé inteligence tím, že produkovaly vysoce kvalitní a diverzifikovanou syntézu obrázků z dané textové výzvy.

Tyto modely nejsou schopny syntetizovat jedinečné reprezentace subjektů v různých prostředích nebo replikovat vzhled subjektů v daném referenčním souboru.

Nově vydané technologie jako OpenAI DALL.E2 nebo StabilityAI Stabilní difúze a Midjourney už berou internet útokem. Nyní je čas přizpůsobit výsledky. Ale jak?

Umělá inteligence Google DreamBooth dorazila.

DreamBooth má schopnost rozpoznat téma obrázku, dekonstruovat jej z jeho původního kontextu a poté jej přesně syntetizovat do nového požadovaného kontextu. Navíc jej lze použít se současnými generátory obrázků AI.

V tomto článku se podrobně podíváme na DreamBooth, jeho použití, návod, jeho omezení a mnoho dalšího.

Co je Dreambooth?

stánek snů, zcela nový model šíření textu do obrázku, představila společnost Google. Písemnou výzvu může Google DreamBooth AI použít jako vodítko ke generování široké škály fotografií uživatelem vybraného předmětu v různých nastaveních.

Výzkumná skupina z Bostonské univerzity a Google vyvinula DreamBooth, špičkovou techniku pro úpravu modelů z textu na obrázek, které prošly rozsáhlým předškolním výcvikem.

Celkový koncept je poměrně přímočarý: chtějí rozšířit slovník jazyk-vize tak, aby se neobvyklá ID tokenů přidružila k vlastním tématům, která mohou uživatelé definovat.

Hlavním cílem modelu je připojit uživatele k model šíření textu do obrázku tím, že jim poskytneme zdroje, které potřebují k výrobě fotorealistických reprezentací příkladů jejich vybraného předmětu.

V důsledku toho se zdá, že tato technika dobře funguje pro shrnutí výzev v řadě situací.

DreamBooth od Google se liší od předchozích nástrojů pro převod textu na obrázek, jako je např DALL-E2, Stabilní difúze, a Střední cestav tom, že uživatelům dává větší kontrolu nad obrázkem tématu, než jim umožní manipulovat s modelem difúze pomocí textových vstupů.

Funkce

DreamBooth AI může zlepšit model převodu textu na obrázek se 3-5 obrázky.
Pomocí DreamBooth AI lze vytvářet originální fotorealistické fotografie.
Umělá inteligence DreamBooth navíc dokáže vytvářet fotografie tématu z více úhlů.

editaci videa

Umělecké ztvárnění

Tento úkol se konkrétně liší od přenosu stylu, který zachovává sémantiku zdrojové scény a zároveň začleňuje styl jiného obrázku do původní scény.

Umělecké ztvárnění

Na základě kreativního přístupu může umělá inteligence provádět významné změny scény při zachování specifik identifikace a instancí tématu.

Úprava vlastností

Charakteristiky instance předmětu lze upravit pomocí AI DreamBooth.

Úprava vlastností

Accessorizace

Silná kompozice před generačním modelem je to, co dělá schopnost AI DreamBooth zdobit předměty tak zajímavou.

Accessorizace

Rekontextualizace

Umělá inteligence DreamBooth dokáže vytvořit charakteristické obrázky pro určitou instanci předmětu tím, že trénovanému modelu dá větu, která obsahuje jedinečný identifikátor a podstatné jméno třídy.

Rekontextualizace

Dokáže vytvořit objekt v jedinečných, dříve neslýchaných polohách, artikulacích a struktuře scény, spíše než měnit okolí. Realistické odrazy a stíny, stejně jako interakce mezi objektem a okolními objekty.

Tutoriál Dreambooth

V tomto tutoriálu budeme sledovat Poznámkový blok Google Collab, a já vás jím provedu, díky čemuž ji pochopíte a budete ji používat sami.

Nastavení GPU a instalace knihoven

Prvním krokem je zjistit, jaké typy GPU a VRAM jsou k dispozici. Je také nutné nainstalovat několik požadavků a závislostí. Jednoduše stiskněte tlačítko přehrávání a počkejte na dokončení.

Nastavení GPU a instalace knihoven

Vytvořte si účet na Huggingface a vygenerujte token

Dalším krokem je registrace účtu Huggingface. Po dokončení klikněte na nastavení v pravém horním rohu. Dostanete se na další stránku.

Token objímání tváře

Zde vytvořte token a jméno podle požadavků. Token by měl být zkopírován a vložen do spolupráce Google v buňce níže.

Token ve službě Google Colab

Nainstalujte xformers

V této fázi můžete jednoduše stisknout tlačítko přehrávání a nainstalovat xformers kliknutím na runtime.

Nainstalujte Xformers

Připojte se k Disku

Nyní stačí spustit tuto buňku a připojit se k disku Google.

Připojit k Disku

Zadejte výzvu

V následující buňce stačí zadat výzvu.

Zadejte výzvu

Nahrávání obrázků

V tomto kroku stačí nahrát obrázky, které jste chtěli trénovat.

Do této buňky můžete nahrát své obrázky

Model AI vlaku

Toto je nejdůležitější fáze, protože budete používat DreamBooth k trénování nového modelu umělé inteligence na základě všech vašich zaslaných referenčních fotografií. Musíte omezit svou pozornost na dvě vstupní pole. „—výzva instance“ je první parametr. Zde musíte zadat velmi odlišné jméno.

Argument '–concept list' je druhým kritickým vstupním polem. Musí být přejmenován tak, aby odpovídal názvu použitému v části „Změnit výzvu“.

Tréninkový model AI

Vytvářejte obrázky AI

V této fázi budou vytvořeny obrázky AI, kde můžete zadat textové pokyny.

Vytvářejte obrázky AI

Omezení Dreambooth

Příkazový řádek se stává překážkou při provádění iterací tématu s vysokým stupněm podrobností. DreamBooth může změnit kontext objektu, ale pokud si model přeje změnit samotný objekt, jsou problémy s rámem.
Dalším problémem je nadměrné přizpůsobení výstupního obrázku vstupnímu obrázku. Pokud není dodáno dostatek obrázků, předmět nemusí být zvažován nebo může být smíchán s kontextem zaslaných obrázků. Když se zeptá na kontext pro lichou generaci, odehraje se to samé.

Proč investovat do čističky vzduchu?

K vytváření výstupů z jediného textového vstupu vyžaduje většina modelů převodu textu na obrázek miliony parametrů a knihoven.

DreamBooth zjednodušuje získávání obsahu a používání pro spotřebitele tím, že vyžaduje pouze vložení tří až pěti tematických fotografií spolu s textovým pozadím.

Výukový program Dreambooth pro začátečníky

Co je Dreambooth?

Funkce