Dreambooth Tutorial për Fillestarët

Përmbajtje[Fshih][Shfaqje]

Çfarë është Dreambooth?
karakteristika
Aplikacion+-
Tutorial Dreambooth+-
Kufizimet e Dreambooth
Përfundim

Modelet e mëdha tekst-në-imazh bënë një përparim të rëndësishëm në zhvillimin e AI duke prodhuar sintezë fotografish me cilësi të lartë dhe të larmishme nga një mesazh i caktuar teksti.

Këto modele nuk janë në gjendje të sintetizojnë paraqitje unike të subjekteve në mjedise të ndryshme ose të përsërisin pamjen e subjekteve në një grup referencë të caktuar.

Teknologjitë e sapo lëshuara si DALL.E2 e OpenAI ose StabilityAI's Difuzion i qëndrueshëm dhe Midjourney tashmë po pushtojnë internetin. Tani është koha për të personalizuar rezultatet. Por si?

Google DreamBooth AI ka mbërritur.

DreamBooth ka aftësinë të njohë temën e një fotografie, ta zbërthejë atë nga konteksti i saj origjinal dhe më pas ta sintetizojë atë në një kontekst të ri të dëshiruar. Për më tepër, mund të përdoret me gjeneratorët aktualë të fotografive me AI.

Në këtë artikull, ne do të hedhim një vështrim të thellë në DreamBooth, përdorimin e tij, tutorialin e tij, kufizimet e tij dhe shumë më tepër.

Çfarë është Dreambooth?

kabinë e ëndrrave, një model krejt i ri i përhapjes së tekstit në imazh, u prezantua nga Google. Një kërkesë me shkrim mund të përdoret si udhëzim nga Google DreamBooth AI për të gjeneruar një gamë të gjerë fotografish të subjektit të zgjedhur të përdoruesit në cilësime të ndryshme.

Një grup kërkimor nga Universiteti i Bostonit dhe Google zhvilluan DreamBooth, një teknikë e fundit për ndryshimin e modeleve tekst-në-imazh që i janë nënshtruar një trajnimi të gjerë paraprak.

Koncepti i përgjithshëm është mjaft i drejtpërdrejtë: ata duan të rrisin fjalorin e vizionit të gjuhës në mënyrë që ID-të e pazakonta të shenjave të shoqërohen me tema të personalizuara që përdoruesit mund të përcaktojnë.

Qëllimi kryesor i modelit është të lidhë përdoruesit me modeli i difuzionit tekst në imazh duke u dhënë atyre burimet që u nevojiten për të prodhuar paraqitje fotorealiste të rasteve të lëndës së tyre të zgjedhur.

Si pasojë, kjo teknikë duket se funksionon mirë për përmbledhjen e sfidave në një sërë situatash.

DreamBooth i Google ndryshon nga mjetet e mëparshme tekst-në-imazh, si p.sh DALL-E2, Difuzion i qëndrueshëmdhe Mesi i udhëtimit, në atë që u jep përdoruesve më shumë kontroll mbi imazhin e temës përpara se t'i lejojë ata të manipulojnë modelin e difuzionit duke përdorur hyrje të bazuara në tekst.

karakteristika

DreamBooth AI mund të përmirësojë një model tekst-në-imazh me 3-5 imazhe.
Fotot origjinale fotorealiste mund të krijohen me DreamBooth AI.
Përveç kësaj, DreamBooth AI mund të krijojë foto të një teme nga këndvështrime të shumta.

Aplikacion

Rendicionet e artit

Kjo detyrë ndryshon në mënyrë specifike nga transferimi i stilit, i cili ruan semantikën e skenës burimore ndërsa përfshin stilin e një imazhi tjetër në skenën origjinale.

Përkthim Arti

Bazuar në qasjen krijuese, AI mund të kryejë ndryshime të rëndësishme të skenës duke ruajtur specifikat e identifikimit dhe shembullit të temës.

Modifikimi i Pronës

Karakteristikat e shembullit të lëndës mund të modifikohen nga DreamBooth AI.

Modifikimi i Pronës

Aksesorizimi

Kompozicioni i fortë para modelit të gjeneratës është ajo që e bën aftësinë e DreamBooth AI për të zbukuruar objekte kaq interesante.

Aksesorizimi

Rikontekstualizimi

DreamBooth AI mund të prodhojë imazhe dalluese për një shembull të caktuar lënde duke i dhënë një modeli të trajnuar një fjali që përfshin identifikuesin unik dhe emrin e klasës.

Rikontekstualizimi

Mund të gjenerojë subjektin në pozicione, artikulacione dhe strukturë skene unike, të padëgjuara më parë, në vend që të ndryshojë mjedisin. Reflektime dhe hije realiste, si dhe ndërveprime ndërmjet subjektit dhe objekteve përreth.

Tutorial Dreambooth

Në këtë tutorial, ne do të ndjekim Fletorja e Google Collab, dhe unë do t'ju kaloj nëpër të, gjë që do t'ju bëjë ta kuptoni dhe ta përdorni vetë.

Vendosja e GPU dhe instalimi i bibliotekave

Zbulimi i llojeve të GPU dhe VRAM është hapi i parë. Instalimi i disa kërkesave dhe varësive është gjithashtu i nevojshëm. Thjesht shtypni butonin e luajtjes dhe më pas prisni që të përfundojë.

Vendosja e GPU-së dhe instalimi i bibliotekave

Krijoni një llogari në Huggingface dhe krijoni një shenjë

Hapi tjetër është të regjistroheni për një llogari Huggingface. Kur të keni mbaruar, klikoni cilësimet në këndin e sipërm djathtas. Do të arrini në faqen tjetër.

Shenja e përqafimit të fytyrës

Krijo shenjën dhe emrin siç kërkohet nga këtu. Shenja duhet të kopjohet dhe ngjitet në bashkëpunimin e Google në qelizën më poshtë.

Token në Google Colab

Instaloni xformers

Në këtë fazë, thjesht mund të shtypni butonin luaj për të instaluar xformers duke klikuar në kohën e ekzekutimit.

Instaloni Xformers

Lidhu me Drive

Tani, ju vetëm duhet të ekzekutoni këtë qelizë për t'u lidhur me google drive.

Lidhu me Drive

Futni kërkesën

Në qelizën e mëposhtme, thjesht duhet të futni kërkesën.

Shkruani Prompt

Ngarkimi i fotove

Në këtë hap, ju vetëm duhet të ngarkoni fotot që dëshironi të stërvitni.

Ju mund të ngarkoni imazhet tuaja në këtë qelizë

Modeli i trenit të AI

Kjo është faza më e rëndësishme, pasi ju do të përdorni DreamBooth për të trajnuar një model të ri të AI bazuar në të gjitha fotografitë referuese të paraqitura. Duhet të kufizoni vëmendjen tuaj në dy fusha hyrëse. "—Instance Prompt" është parametri i parë. Këtu duhet të jepni një emër shumë të dallueshëm.

Argumenti '–lista e koncepteve' është fusha e dytë kritike e hyrjes. Duhet të riemërtohet që të përputhet me atë të përdorur në seksionin "Ndrysho kërkesën".

Modeli i trajnimit të AI

Gjeneroni imazhe të AI

Fotografitë e AI do të krijohen në këtë fazë, ku mund të futni udhëzimet e tekstit.

Gjeneroni imazhe të AI

Kufizimet e Dreambooth

Prompti i komandës bëhet një pengesë për të bërë përsëritje në temë me shkallë të lartë detajesh. DreamBooth mund të ndryshojë kontekstin e subjektit, por nëse modeli dëshiron të ndryshojë vetë subjektin, ka probleme me kornizën.
Një çështje tjetër është përshtatja e tepërt e figurës dalëse me imazhin hyrës. Nëse nuk ka fotografi të mjaftueshme të ofruara, subjekti mund të mos merret parasysh ose mund të përzihet me kontekstin e imazheve të paraqitura. Kur pyetet një kontekst për një brez tek, ndodh e njëjta gjë.

Përfundim

Për të prodhuar rezultate nga një hyrje e vetme teksti, pjesa më e madhe e modeleve tekst-në-imazh kërkojnë miliona parametra dhe biblioteka.

DreamBooth thjeshton blerjen dhe përdorimin e përmbajtjes për konsumatorët duke kërkuar vetëm futjen e tre deri në pesë fotografi tematike së bashku me një sfond tekstual.

Tutorial Dreambooth për fillestarët

Çfarë është Dreambooth?

karakteristika