Obsah[Skryť][Šou]
Veľké modely prevodu textu na obrázok urobili významný pokrok vo vývoji AI tým, že vytvorili vysokokvalitnú a diverzifikovanú syntézu obrázkov z danej textovej výzvy.
Tieto modely nie sú schopné syntetizovať jedinečné reprezentácie subjektov v rôznych prostrediach alebo replikovať vzhľad subjektov v danom referenčnom súbore.
Novo vydané technológie ako OpenAI DALL.E2 alebo StabilityAI Stabilná difúzia a Midjourney už berú internet útokom. Teraz je čas prispôsobiť výsledky. Ale ako?
Google DreamBooth AI je tu.
DreamBooth má schopnosť rozpoznať tému obrázka, dekonštruovať ho z jeho pôvodného kontextu a potom ho presne syntetizovať do nového požadovaného kontextu. Okrem toho ho možno použiť so súčasnými generátormi obrazu AI.
V tomto článku sa podrobne pozrieme na DreamBooth, jeho použitie, návod, jeho obmedzenia a oveľa viac.
Čo je Dreambooth?
stánok snov, úplne nový model šírenia textu na obrázok, predstavila spoločnosť Google. Písomnú výzvu môže Google DreamBooth AI použiť ako usmernenie na vygenerovanie širokej škály fotografií objektu vybraného používateľom v rôznych nastaveniach.
Výskumná skupina z Bostonskej univerzity a Google vyvinuli DreamBooth, špičkovú techniku na úpravu modelov textu na obrázok, ktoré prešli rozsiahlym predbežným školením.
Celkový koncept je pomerne jednoduchý: chcú rozšíriť slovník jazykových vízií tak, aby sa nezvyčajné ID tokenov spájali s vlastnými témami, ktoré môžu používatelia definovať.
Hlavným cieľom modelu je pripojiť používateľov k model difúzie textu na obrázok tým, že im poskytneme zdroje, ktoré potrebujú na výrobu fotorealistických reprezentácií príkladov ich vybraného predmetu.
V dôsledku toho sa zdá, že táto technika funguje dobre na zhrnutie výziev v rôznych situáciách.
DreamBooth od Google sa líši od predchádzajúcich nástrojov na prevod textu na obrázok, ako napr DALL-E2, Stabilná difúziaa Stredná cesta, v tom, že používateľom poskytuje väčšiu kontrolu nad obrázkom témy predtým, ako im umožní manipulovať s modelom difúzie pomocou textových vstupov.
Vlastnosti
- DreamBooth AI môže zlepšiť model prevodu textu na obrázok s 3 až 5 obrázkami.
- Pomocou DreamBooth AI je možné vytvárať originálne fotorealistické fotografie.
- DreamBooth AI navyše dokáže vytvárať fotografie témy z viacerých uhlov pohľadu.
Využitie
Umelecké stvárnenia
Táto úloha sa špecificky líši od prenosu štýlu, ktorý zachováva sémantiku zdrojovej scény a zároveň začleňuje štýl iného obrázka do pôvodnej scény.
Na základe kreatívneho prístupu môže AI dosiahnuť významné zmeny scény pri zachovaní identifikácie a špecifík inštancií témy.
Úprava majetku
Charakteristiky inštancie predmetu možno upraviť pomocou AI DreamBooth.
Accessorizácia
Silná kompozícia pred generačným modelom je to, čo robí schopnosť umelej inteligencie DreamBooth zdobiť predmety tak zaujímavou.
Rekontextualizácia
Umelá inteligencia DreamBooth dokáže vytvoriť charakteristické obrázky pre určitý predmet tak, že trénovanému modelu dá vetu, ktorá obsahuje jedinečný identifikátor a podstatné meno triedy.
Môže generovať objekt v jedinečných, predtým neslýchaných polohách, artikuláciách a štruktúre scény, namiesto toho, aby menil okolie. Realistické odrazy a tiene, ako aj interakcie medzi objektom a okolitými objektmi.
Návod na Dreambooth
V tomto návode budeme sledovať Zápisník Google Collab, a ja vás ním prevediem, vďaka čomu ho pochopíte a použijete na vlastnú päsť.
Nastavenie GPU a inštalácia knižníc
Prvým krokom je zistiť, aké typy GPU a VRAM sú k dispozícii. Je tiež potrebné nainštalovať niekoľko požiadaviek a závislostí. Jednoducho stlačte tlačidlo prehrávania a počkajte na dokončenie.
Vytvorte si účet na Huggingface a vygenerujte token
Ďalším krokom je registrácia účtu Huggingface. Po dokončení kliknite na nastavenia v pravom hornom rohu. Dostanete sa na ďalšiu stránku.
Vytvorte token a meno podľa požiadaviek odtiaľto. Token by sa mal skopírovať a vložiť do spolupráce Google v bunke nižšie.
Nainštalujte xformers
V tejto fáze môžete jednoducho stlačiť tlačidlo prehrávania a nainštalovať xformers kliknutím na runtime.
Pripojte sa k Disku
Teraz stačí spustiť túto bunku a pripojiť sa k disku Google.
Zadajte výzvu
V nasledujúcej bunke stačí zadať výzvu.
Nahrávanie obrázkov
V tomto kroku stačí nahrať obrázky, ktoré ste chceli trénovať.
Vlak model AI
Toto je najdôležitejšia fáza, pretože DreamBooth budete využívať na trénovanie nového modelu AI na základe všetkých vašich odoslaných referenčných fotografií. Svoju pozornosť musíte obmedziť na dve vstupné polia. „—výzva k inštancii“ je prvý parameter. Tu musíte zadať veľmi zreteľné meno.
Argument „–zoznam pojmov“ je druhým kritickým vstupným poľom. Musí byť premenovaný tak, aby sa zhodoval s názvom použitým v časti „Zmeniť výzvu“.
Vytvorte obrázky AI
V tejto fáze sa vytvoria obrázky AI, kde môžete zadať textové pokyny.
Obmedzenia Dreambooth
- Príkazový riadok sa stáva prekážkou pri opakovaní témy s vysokým stupňom detailov. DreamBooth môže zmeniť kontext objektu, ale ak si model želá zmeniť samotný objekt, vyskytli sa problémy s rámom.
- Ďalším problémom je nadmerné prispôsobenie výstupného obrazu vstupnému obrazu. Ak nie je k dispozícii dostatok obrázkov, predmet nemusí byť braný do úvahy alebo môže byť zmiešaný s kontextom predložených obrázkov. Keď sa spýta kontext pre nepárnu generáciu, stane sa to isté.
záver
Na vytváranie výstupov z jedného textového vstupu si väčšina modelov prevodu textu na obrázok vyžaduje milióny parametrov a knižníc.
DreamBooth zjednodušuje získavanie obsahu a používanie pre spotrebiteľov tým, že vyžaduje len vloženie troch až piatich tematických fotografií spolu s textovým pozadím.
Nechaj odpoveď