Kazalo[Skrij][Pokaži]
Veliki modeli besedila v sliko so znatno napredovali pri razvoju umetne inteligence s proizvodnjo visokokakovostne in raznolike sinteze slike iz danega besedilnega poziva.
Ti modeli ne morejo sintetizirati edinstvenih predstavitev subjektov v različnih okoljih ali posnemati videza subjektov v danem referenčnem nizu.
Na novo izdane tehnologije, kot sta DALL.E2 OpenAI ali StabilityAI Stabilna difuzija in Midjourney že osvajata internet. Zdaj je čas, da prilagodite rezultate. Kako pa?
Google DreamBooth AI je prišel.
DreamBooth ima možnost prepoznati temo slike, jo dekonstruirati iz prvotnega konteksta in jo nato natančno sintetizirati v nov želeni kontekst. Poleg tega se lahko uporablja s trenutnimi generatorji slik z umetno inteligenco.
V tem članku si bomo podrobno ogledali DreamBooth, njegovo uporabo, vadnico, omejitve in še veliko več.
Kaj je Dreambooth?
dreambooth, povsem nov model razširjanja besedila v sliko, je predstavil Google. Google DreamBooth AI lahko pisni poziv uporabi kot vodilo za ustvarjanje širokega nabora fotografij uporabnikove izbrane teme v različnih nastavitvah.
Raziskovalna skupina z bostonske univerze in Google sta razvila DreamBooth, vrhunsko tehniko za spreminjanje modelov besedila v sliko, ki je bila podvržena obsežnemu predhodnemu usposabljanju.
Celoten koncept je dokaj preprost: želijo povečati slovar jezikovne vizije, tako da so neobičajni ID-ji žetonov povezani s temami po meri, ki jih lahko uporabniki definirajo.
Glavni cilj modela je povezati uporabnike z model difuzije besedila v sliko tako da jim da vire, ki jih potrebujejo za izdelavo fotorealističnih predstavitev primerov njihove izbrane vsebine.
Posledično se zdi, da ta tehnika dobro deluje pri povzemanju izzivov v različnih situacijah.
Googlov DreamBooth se razlikuje od prejšnjih orodij za pretvorbo besedila v sliko, kot je npr DALL-E2, Stabilna difuzijain vmesna pot, saj daje uporabnikom več nadzora nad sliko teme, preden jim dovoli, da manipulirajo z modelom razpršitve z uporabo besedilnih vnosov.
Lastnosti
- DreamBooth AI lahko izboljša model besedila v sliko s 3-5 slikami.
- Izvirne fotorealistične fotografije je mogoče ustvariti z DreamBooth AI.
- Poleg tega lahko DreamBooth AI ustvari fotografije teme iz več zornih kotov.
uporaba
Umetniške upodobitve
Ta naloga se posebej razlikuje od prenosa sloga, ki ohranja semantiko izvornega prizora, hkrati pa vključuje slog druge slike v izvirni prizor.
Na podlagi kreativnega pristopa lahko umetna inteligenca doseže pomembne spremembe prizora, hkrati pa ohrani identifikacijo in specifičnosti primera teme.
Sprememba nepremičnine
Lastnosti predmetne instance lahko spremeni DreamBooth AI.
Dodatki
Močna kompozicija pred generacijskim modelom je tisto, zaradi česar je sposobnost DreamBooth AI, da okrasi predmete, tako zanimiva.
Rekontekstualizacija
DreamBooth AI lahko ustvari značilne slike za določen primer predmeta tako, da usposobljenemu modelu da stavek, ki vključuje enolični identifikator in samostalnik razreda.
Predmet lahko ustvari v edinstvenih, prej neslišanih držah, artikulacijah in strukturi scene, namesto da spremeni okolico. Realistični odsevi in sence ter interakcije med subjektom in okoliškimi predmeti.
Vadnica za Dreambooth
V tej vadnici bomo sledili Beležnica Google Collab, in vodil vas bom skozi to, kar vam bo pomagalo razumeti in uporabljati sami.
Nastavitev GPE in namestitev knjižnic
Prvi korak je ugotoviti, katere vrste GPE in VRAM so na voljo. Potrebna je tudi namestitev nekaj zahtev in odvisnosti. Preprosto pritisnite gumb za predvajanje in počakajte, da se konča.
Ustvarite račun na Huggingface in ustvarite žeton
Naslednji korak je registracija za račun Huggingface. Ko končate, kliknite nastavitve v zgornjem desnem kotu. Prišli boste na naslednjo stran.
Ustvarite žeton in ime, kot je zahtevano od tukaj. Žeton je treba kopirati in prilepiti v Googlovo sodelovanje v spodnji celici.
Namestite xformers
Na tej stopnji lahko preprosto pritisnete gumb za predvajanje, da namestite xformers s klikom na runtime.
Povežite se z Drive
Zdaj morate le zagnati to celico, da se povežete z google diskom.
Vnesite poziv
V naslednjo celico morate samo vnesti poziv.
Nalaganje slik
V tem koraku morate samo naložiti slike, ki jih želite usposobiti.
Usposobite model AI
To je najpomembnejša faza, saj boste uporabili DreamBooth za usposabljanje novega modela umetne inteligence na podlagi vseh predloženih referenčnih fotografij. Svojo pozornost morate omejiti na dve vnosni polji. »—poziv primerka« je prvi parameter. Tukaj morate navesti zelo razločno ime.
Argument '–concept list' je drugo kritično vnosno polje. Preimenovati ga je treba tako, da bo ustrezal tistemu, uporabljenemu v razdelku »Spremeni poziv«.
Ustvari slike AI
Na tej stopnji bodo ustvarjene slike AI, kjer lahko vnesete besedilna navodila.
Omejitve Dreambootha
- Ukazni poziv postane ovira za ponavljanje teme z visoko stopnjo podrobnosti. DreamBooth lahko spremeni kontekst subjekta, če pa želi model sam spremeniti subjekt, pride do težav z okvirjem.
- Druga težava je pretirano prilagajanje izhodne slike vhodni sliki. Če ni na voljo dovolj slik, predmet morda ne bo upoštevan ali pa se bo pomešal s kontekstom predloženih slik. Ko se vpraša kontekst za čudno generacijo, se zgodi ista stvar.
zaključek
Za ustvarjanje rezultatov iz enega vnosa besedila večina modelov besedila v sliko zahteva na milijone parametrov in knjižnic.
DreamBooth potrošnikom poenostavi pridobivanje in uporabo vsebine, tako da zahteva samo vnos treh do petih tematskih fotografij skupaj z besedilnim ozadjem.
Pustite Odgovori