Dreambooth oktatóanyag kezdőknek

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Dreambooth?
Jellemzők
Alkalmazás +-
Dreambooth oktatóanyag+-
Dreambooth korlátozások
Következtetés

A nagyméretű szöveg-kép modellek jelentős előrelépést tettek az AI fejlesztésében azáltal, hogy egy adott szöveges promptból jó minőségű és változatos képszintézist állítottak elő.

Ezek a modellek nem képesek az alanyok egyedi reprezentációinak szintetizálására különböző beállításokban, vagy nem képesek megismételni az alanyok megjelenését egy adott referenciakészletben.

Az olyan újonnan kiadott technológiák, mint az OpenAI DALL.E2 vagy a StabilityAI Stabil diffúzió és a Midjourney máris viharba veszi az internetet. Itt az ideje testreszabni az eredményeket. Mégis hogyan?

Megérkezett a Google DreamBooth AI.

A DreamBooth képes felismerni egy kép témáját, dekonstruálni azt eredeti kontextusából, majd pontosan szintetizálni egy új kívánt kontextusba. Ezenkívül használható a jelenlegi AI képgenerátorokkal.

Ebben a cikkben alaposan áttekintjük a DreamBooth-ot, annak használatát, oktatóanyagát, korlátait és még sok mást.

Mi az a Dreambooth?

álombódé, egy vadonatúj szöveg-kép diffúziós modellt mutatott be a Google. A Google DreamBooth AI egy írásos felszólítást használhat útmutatásként a felhasználó által kiválasztott témáról készült fényképek széles skálájának létrehozásához, különböző beállításokkal.

A Boston Egyetem és a Google kutatócsoportja kifejlesztette a DreamBooth-ot, a legmodernebb technikát a kiterjedt előképzésen átesett szöveges képké modellek átalakítására.

Az általános koncepció meglehetősen egyszerű: bővíteni akarják a nyelvi látásszótárat, hogy a szokatlan token-azonosítók egyéni témákhoz legyenek társítva, amelyeket a felhasználók meghatározhatnak.

A modell fő célja, hogy összekapcsolja a felhasználókat a szöveg-kép diffúziós modell azáltal, hogy megadjuk nekik azokat az erőforrásokat, amelyekre szükségük van a kiválasztott témájuk eseteinek fotorealisztikus ábrázolásához.

Következésképpen úgy tűnik, hogy ez a technika számos helyzetben jól működik a kihívások összegzésében.

A Google DreamBooth-ja eltér a korábbi szöveg-kép eszközeitől, mint pl DALL-E2, Stabil diffúzióés középút, mivel a felhasználóknak nagyobb irányítást biztosítanak a téma kép felett, mielőtt szövegalapú bemenetekkel manipulálják a diffúziós modellt.

Jellemzők

A DreamBooth AI 3-5 képpel javíthat egy szöveg-kép modellt.
A DreamBooth AI segítségével eredeti fotorealisztikus fényképek készíthetők.
Ezenkívül a DreamBooth AI több szögből is képes fotókat készíteni egy témáról.

Alkalmazás

Művészeti átadások

Ez a feladat kifejezetten különbözik a stílusátviteltől, amely megtartja a forrásjelenet szemantikáját, miközben egy másik kép stílusát beépíti az eredeti jelenetbe.

Művészeti Kiadás

A kreatív megközelítés alapján az AI jelentős jelenetmódosításokat tud végrehajtani, miközben megtartja az azonosítási és témapéldány-specifikációkat.

Tulajdonmódosítás

Az alanypéldány jellemzőit a DreamBooth AI módosíthatja.

Tulajdonmódosítás

Kiegészítők

A generációs modellt megelőző erős kompozíció az, ami annyira érdekessé teszi a DreamBooth AI azon képességét, hogy tárgyakat díszítsen.

Kiegészítők

Rekontextualizálás

A DreamBooth AI megkülönböztető képeket tud előállítani egy bizonyos tárgypéldányhoz, ha a képzett modellnek egy mondatot ad, amely tartalmazza az egyedi azonosítót és az osztály főnevet.

Rekontextualizálás

A környezet megváltoztatása helyett egyedi, korábban nem hallott testhelyzetekben, artikulációkban és jelenetstruktúrákban generálhatja a témát. Valósághű tükröződések és árnyékok, valamint az alany és a környező tárgyak közötti interakciók.

Dreambooth oktatóanyag

Ebben az oktatóanyagban követni fogjuk a Google Collab jegyzetfüzet, és végigvezetem rajta, amivel megértheted és egyedül is használhatod.

GPU beállítása és könyvtárak telepítése

Az első lépés annak kiderítése, hogy milyen GPU és VRAM típusok állnak rendelkezésre. Néhány követelmény és függőség telepítése is szükséges. Egyszerűen nyomja meg a lejátszás gombot, majd várja meg, amíg befejeződik.

A GPU beállítása és a könyvtárak telepítése

Hozzon létre egy fiókot a Huggingface-en, és hozzon létre egy tokent

A következő lépés a Huggingface-fiók regisztrálása. Ha végzett, kattintson a beállításokra a jobb felső sarokban. A következő oldalon fogsz megérkezni.

Ölelő Arc Token

Hozza létre a tokent és a nevet az innen kért módon. A tokent ki kell másolni, és be kell illeszteni az alábbi cellában lévő Google együttműködésbe.

Token a Google Colabban

Telepítse az xformers programot

Ebben a szakaszban egyszerűen megnyomhatja a lejátszás gombot az xformers telepítéséhez a futtatókörnyezetre kattintva.

Telepítse az Xformers programot

Csatlakozás a Drive-hoz

Most már csak le kell futtatnia ezt a cellát, hogy csatlakozzon a Google meghajtóhoz.

Csatlakozás a Drive-hoz

Írja be a promptot

A következő cellában csak be kell írnia a promptot.

Írja be a parancssort

Képek feltöltése

Ebben a lépésben csak fel kell töltenie azokat a képeket, amelyeket edzeni akart.

Feltöltheti képeit ebbe a cellába

Vonat AI modell

Ez a legfontosabb fázis, mivel a DreamBooth segítségével új AI-modellt képezhet ki az összes beküldött referenciafotója alapján. Két beviteli mezőre kell korlátoznia a figyelmét. A „-példány prompt” az első paraméter. Itt nagyon jól megkülönböztethető nevet kell megadnia.

A „–fogalomlista” argumentum a második kritikus beviteli mező. Át kell nevezni, hogy megfeleljen a „Megjelenítés módosítása” részben használtnak.

Képzési AI modell

AI képeket generál

A mesterséges intelligencia képek ebben a szakaszban jönnek létre, ahol megadhatja a szöveges utasításokat.

AI képeket generál

Dreambooth korlátozások

A parancssor akadályozza a témakörben a nagyfokú részletezésű iterációkat. A DreamBooth megváltoztathatja az alany kontextusát, de ha a modell magát a témát akarja megváltoztatni, akkor problémák vannak a kerettel.
Egy másik probléma a kimeneti kép túlillesztése a bemeneti képhez. Ha nincs elég kép, előfordulhat, hogy a téma nem kerül figyelembevételre, vagy keveredik a beküldött képek kontextusával. Amikor egy páratlan generáció kontextusát kérdezik, ugyanez történik.

Következtetés

Az egyetlen szövegbevitelből származó kimenetek előállításához a szöveg-kép modellek többsége paraméterek és könyvtárak millióit igényli.

A DreamBooth leegyszerűsíti a tartalomszerzést és -használatot a fogyasztók számára azáltal, hogy mindössze három-öt témájú fényképet és szöveges hátteret kell megadnia.

Dreambooth oktatóanyag kezdőknek

Mi az a Dreambooth?

Jellemzők