Përmbajtje[Fshih][Shfaqje]
Modelet e mëdha tekst-në-imazh bënë një përparim të rëndësishëm në zhvillimin e AI duke prodhuar sintezë fotografish me cilësi të lartë dhe të larmishme nga një mesazh i caktuar teksti.
Këto modele nuk janë në gjendje të sintetizojnë paraqitje unike të subjekteve në mjedise të ndryshme ose të përsërisin pamjen e subjekteve në një grup referencë të caktuar.
Teknologjitë e sapo lëshuara si DALL.E2 e OpenAI ose StabilityAI's Difuzion i qëndrueshëm dhe Midjourney tashmë po pushtojnë internetin. Tani është koha për të personalizuar rezultatet. Por si?
Google DreamBooth AI ka mbërritur.
DreamBooth ka aftësinë të njohë temën e një fotografie, ta zbërthejë atë nga konteksti i saj origjinal dhe më pas ta sintetizojë atë në një kontekst të ri të dëshiruar. Për më tepër, mund të përdoret me gjeneratorët aktualë të fotografive me AI.
Në këtë artikull, ne do të hedhim një vështrim të thellë në DreamBooth, përdorimin e tij, tutorialin e tij, kufizimet e tij dhe shumë më tepër.
Çfarë është Dreambooth?
kabinë e ëndrrave, një model krejt i ri i përhapjes së tekstit në imazh, u prezantua nga Google. Një kërkesë me shkrim mund të përdoret si udhëzim nga Google DreamBooth AI për të gjeneruar një gamë të gjerë fotografish të subjektit të zgjedhur të përdoruesit në cilësime të ndryshme.
Një grup kërkimor nga Universiteti i Bostonit dhe Google zhvilluan DreamBooth, një teknikë e fundit për ndryshimin e modeleve tekst-në-imazh që i janë nënshtruar një trajnimi të gjerë paraprak.
Koncepti i përgjithshëm është mjaft i drejtpërdrejtë: ata duan të rrisin fjalorin e vizionit të gjuhës në mënyrë që ID-të e pazakonta të shenjave të shoqërohen me tema të personalizuara që përdoruesit mund të përcaktojnë.
Qëllimi kryesor i modelit është të lidhë përdoruesit me modeli i difuzionit tekst në imazh duke u dhënë atyre burimet që u nevojiten për të prodhuar paraqitje fotorealiste të rasteve të lëndës së tyre të zgjedhur.
Si pasojë, kjo teknikë duket se funksionon mirë për përmbledhjen e sfidave në një sërë situatash.
DreamBooth i Google ndryshon nga mjetet e mëparshme tekst-në-imazh, si p.sh DALL-E2, Difuzion i qëndrueshëmdhe Mesi i udhëtimit, në atë që u jep përdoruesve më shumë kontroll mbi imazhin e temës përpara se t'i lejojë ata të manipulojnë modelin e difuzionit duke përdorur hyrje të bazuara në tekst.
karakteristika
- DreamBooth AI mund të përmirësojë një model tekst-në-imazh me 3-5 imazhe.
- Fotot origjinale fotorealiste mund të krijohen me DreamBooth AI.
- Përveç kësaj, DreamBooth AI mund të krijojë foto të një teme nga këndvështrime të shumta.
Aplikacion
Rendicionet e artit
Kjo detyrë ndryshon në mënyrë specifike nga transferimi i stilit, i cili ruan semantikën e skenës burimore ndërsa përfshin stilin e një imazhi tjetër në skenën origjinale.
Bazuar në qasjen krijuese, AI mund të kryejë ndryshime të rëndësishme të skenës duke ruajtur specifikat e identifikimit dhe shembullit të temës.
Modifikimi i Pronës
Karakteristikat e shembullit të lëndës mund të modifikohen nga DreamBooth AI.
Aksesorizimi
Kompozicioni i fortë para modelit të gjeneratës është ajo që e bën aftësinë e DreamBooth AI për të zbukuruar objekte kaq interesante.
Rikontekstualizimi
DreamBooth AI mund të prodhojë imazhe dalluese për një shembull të caktuar lënde duke i dhënë një modeli të trajnuar një fjali që përfshin identifikuesin unik dhe emrin e klasës.
Mund të gjenerojë subjektin në pozicione, artikulacione dhe strukturë skene unike, të padëgjuara më parë, në vend që të ndryshojë mjedisin. Reflektime dhe hije realiste, si dhe ndërveprime ndërmjet subjektit dhe objekteve përreth.
Tutorial Dreambooth
Në këtë tutorial, ne do të ndjekim Fletorja e Google Collab, dhe unë do t'ju kaloj nëpër të, gjë që do t'ju bëjë ta kuptoni dhe ta përdorni vetë.
Vendosja e GPU dhe instalimi i bibliotekave
Zbulimi i llojeve të GPU dhe VRAM është hapi i parë. Instalimi i disa kërkesave dhe varësive është gjithashtu i nevojshëm. Thjesht shtypni butonin e luajtjes dhe më pas prisni që të përfundojë.
Krijoni një llogari në Huggingface dhe krijoni një shenjë
Hapi tjetër është të regjistroheni për një llogari Huggingface. Kur të keni mbaruar, klikoni cilësimet në këndin e sipërm djathtas. Do të arrini në faqen tjetër.
Krijo shenjën dhe emrin siç kërkohet nga këtu. Shenja duhet të kopjohet dhe ngjitet në bashkëpunimin e Google në qelizën më poshtë.
Instaloni xformers
Në këtë fazë, thjesht mund të shtypni butonin luaj për të instaluar xformers duke klikuar në kohën e ekzekutimit.
Lidhu me Drive
Tani, ju vetëm duhet të ekzekutoni këtë qelizë për t'u lidhur me google drive.
Futni kërkesën
Në qelizën e mëposhtme, thjesht duhet të futni kërkesën.
Ngarkimi i fotove
Në këtë hap, ju vetëm duhet të ngarkoni fotot që dëshironi të stërvitni.
Modeli i trenit të AI
Kjo është faza më e rëndësishme, pasi ju do të përdorni DreamBooth për të trajnuar një model të ri të AI bazuar në të gjitha fotografitë referuese të paraqitura. Duhet të kufizoni vëmendjen tuaj në dy fusha hyrëse. "—Instance Prompt" është parametri i parë. Këtu duhet të jepni një emër shumë të dallueshëm.
Argumenti '–lista e koncepteve' është fusha e dytë kritike e hyrjes. Duhet të riemërtohet që të përputhet me atë të përdorur në seksionin "Ndrysho kërkesën".
Gjeneroni imazhe të AI
Fotografitë e AI do të krijohen në këtë fazë, ku mund të futni udhëzimet e tekstit.
Kufizimet e Dreambooth
- Prompti i komandës bëhet një pengesë për të bërë përsëritje në temë me shkallë të lartë detajesh. DreamBooth mund të ndryshojë kontekstin e subjektit, por nëse modeli dëshiron të ndryshojë vetë subjektin, ka probleme me kornizën.
- Një çështje tjetër është përshtatja e tepërt e figurës dalëse me imazhin hyrës. Nëse nuk ka fotografi të mjaftueshme të ofruara, subjekti mund të mos merret parasysh ose mund të përzihet me kontekstin e imazheve të paraqitura. Kur pyetet një kontekst për një brez tek, ndodh e njëjta gjë.
Përfundim
Për të prodhuar rezultate nga një hyrje e vetme teksti, pjesa më e madhe e modeleve tekst-në-imazh kërkojnë miliona parametra dhe biblioteka.
DreamBooth thjeshton blerjen dhe përdorimin e përmbajtjes për konsumatorët duke kërkuar vetëm futjen e tre deri në pesë fotografi tematike së bashku me një sfond tekstual.
Lini një Përgjigju