Obsah[Skrýt][Ukázat]
Velké modely převodu textu na obrázek významně pokročily ve vývoji umělé inteligence tím, že produkovaly vysoce kvalitní a diverzifikovanou syntézu obrázků z dané textové výzvy.
Tyto modely nejsou schopny syntetizovat jedinečné reprezentace subjektů v různých prostředích nebo replikovat vzhled subjektů v daném referenčním souboru.
Nově vydané technologie jako OpenAI DALL.E2 nebo StabilityAI Stabilní difúze a Midjourney už berou internet útokem. Nyní je čas přizpůsobit výsledky. Ale jak?
Umělá inteligence Google DreamBooth dorazila.
DreamBooth má schopnost rozpoznat téma obrázku, dekonstruovat jej z jeho původního kontextu a poté jej přesně syntetizovat do nového požadovaného kontextu. Navíc jej lze použít se současnými generátory obrázků AI.
V tomto článku se podrobně podíváme na DreamBooth, jeho použití, návod, jeho omezení a mnoho dalšího.
Co je Dreambooth?
stánek snů, zcela nový model šíření textu do obrázku, představila společnost Google. Písemnou výzvu může Google DreamBooth AI použít jako vodítko ke generování široké škály fotografií uživatelem vybraného předmětu v různých nastaveních.
Výzkumná skupina z Bostonské univerzity a Google vyvinula DreamBooth, špičkovou techniku pro úpravu modelů z textu na obrázek, které prošly rozsáhlým předškolním výcvikem.
Celkový koncept je poměrně přímočarý: chtějí rozšířit slovník jazyk-vize tak, aby se neobvyklá ID tokenů přidružila k vlastním tématům, která mohou uživatelé definovat.
Hlavním cílem modelu je připojit uživatele k model šíření textu do obrázku tím, že jim poskytneme zdroje, které potřebují k výrobě fotorealistických reprezentací příkladů jejich vybraného předmětu.
V důsledku toho se zdá, že tato technika dobře funguje pro shrnutí výzev v řadě situací.
DreamBooth od Google se liší od předchozích nástrojů pro převod textu na obrázek, jako je např DALL-E2, Stabilní difúze, a Střední cestav tom, že uživatelům dává větší kontrolu nad obrázkem tématu, než jim umožní manipulovat s modelem difúze pomocí textových vstupů.
Funkce
- DreamBooth AI může zlepšit model převodu textu na obrázek se 3-5 obrázky.
- Pomocí DreamBooth AI lze vytvářet originální fotorealistické fotografie.
- Umělá inteligence DreamBooth navíc dokáže vytvářet fotografie tématu z více úhlů.
editaci videa
Umělecké ztvárnění
Tento úkol se konkrétně liší od přenosu stylu, který zachovává sémantiku zdrojové scény a zároveň začleňuje styl jiného obrázku do původní scény.
Na základě kreativního přístupu může umělá inteligence provádět významné změny scény při zachování specifik identifikace a instancí tématu.
Úprava vlastností
Charakteristiky instance předmětu lze upravit pomocí AI DreamBooth.
Accessorizace
Silná kompozice před generačním modelem je to, co dělá schopnost AI DreamBooth zdobit předměty tak zajímavou.
Rekontextualizace
Umělá inteligence DreamBooth dokáže vytvořit charakteristické obrázky pro určitou instanci předmětu tím, že trénovanému modelu dá větu, která obsahuje jedinečný identifikátor a podstatné jméno třídy.
Dokáže vytvořit objekt v jedinečných, dříve neslýchaných polohách, artikulacích a struktuře scény, spíše než měnit okolí. Realistické odrazy a stíny, stejně jako interakce mezi objektem a okolními objekty.
Tutoriál Dreambooth
V tomto tutoriálu budeme sledovat Poznámkový blok Google Collab, a já vás jím provedu, díky čemuž ji pochopíte a budete ji používat sami.
Nastavení GPU a instalace knihoven
Prvním krokem je zjistit, jaké typy GPU a VRAM jsou k dispozici. Je také nutné nainstalovat několik požadavků a závislostí. Jednoduše stiskněte tlačítko přehrávání a počkejte na dokončení.
Vytvořte si účet na Huggingface a vygenerujte token
Dalším krokem je registrace účtu Huggingface. Po dokončení klikněte na nastavení v pravém horním rohu. Dostanete se na další stránku.
Zde vytvořte token a jméno podle požadavků. Token by měl být zkopírován a vložen do spolupráce Google v buňce níže.
Nainstalujte xformers
V této fázi můžete jednoduše stisknout tlačítko přehrávání a nainstalovat xformers kliknutím na runtime.
Připojte se k Disku
Nyní stačí spustit tuto buňku a připojit se k disku Google.
Zadejte výzvu
V následující buňce stačí zadat výzvu.
Nahrávání obrázků
V tomto kroku stačí nahrát obrázky, které jste chtěli trénovat.
Model AI vlaku
Toto je nejdůležitější fáze, protože budete používat DreamBooth k trénování nového modelu umělé inteligence na základě všech vašich zaslaných referenčních fotografií. Musíte omezit svou pozornost na dvě vstupní pole. „—výzva instance“ je první parametr. Zde musíte zadat velmi odlišné jméno.
Argument '–concept list' je druhým kritickým vstupním polem. Musí být přejmenován tak, aby odpovídal názvu použitému v části „Změnit výzvu“.
Vytvářejte obrázky AI
V této fázi budou vytvořeny obrázky AI, kde můžete zadat textové pokyny.
Omezení Dreambooth
- Příkazový řádek se stává překážkou při provádění iterací tématu s vysokým stupněm podrobností. DreamBooth může změnit kontext objektu, ale pokud si model přeje změnit samotný objekt, jsou problémy s rámem.
- Dalším problémem je nadměrné přizpůsobení výstupního obrázku vstupnímu obrázku. Pokud není dodáno dostatek obrázků, předmět nemusí být zvažován nebo může být smíchán s kontextem zaslaných obrázků. Když se zeptá na kontext pro lichou generaci, odehraje se to samé.
Proč investovat do čističky vzduchu?
K vytváření výstupů z jediného textového vstupu vyžaduje většina modelů převodu textu na obrázek miliony parametrů a knihoven.
DreamBooth zjednodušuje získávání obsahu a používání pro spotřebitele tím, že vyžaduje pouze vložení tří až pěti tematických fotografií spolu s textovým pozadím.
Napsat komentář