Turinys[Slėpti][Rodyti]
Dideli teksto į vaizdą modeliai padarė didelę pažangą kuriant AI, sukurdami aukštos kokybės ir įvairiapusę vaizdo sintezę pagal pateiktą teksto eilutę.
Šie modeliai negali susintetinti unikalių objektų atvaizdų įvairiuose nustatymuose arba atkartoti objektų išvaizdos tam tikrame atskaitos rinkinyje.
Naujai išleistos technologijos, tokios kaip OpenAI DALL.E2 arba StabilityAI Stabili difuzija ir „Midjourney“ jau šturmuoja internetą. Dabar laikas tinkinti rezultatus. Tačiau kaip?
„Google DreamBooth AI“ atvyko.
„DreamBooth“ turi galimybę atpažinti paveikslo temą, dekonstruoti jį iš pradinio konteksto ir tiksliai susintetinti į naują norimą kontekstą. Be to, jis gali būti naudojamas su dabartiniais AI vaizdo generatoriais.
Šiame straipsnyje mes išsamiai apžvelgsime „DreamBooth“, jo naudojimą, mokymo programą, apribojimus ir daug daugiau.
Kas yra Dreambooth?
svajonių kabina„Google“ pristatė visiškai naują teksto į vaizdą sklaidos modelį. „Google DreamBooth AI“ gali naudoti rašytinį raginimą, kad sugeneruotų platų naudotojo pasirinktos temos nuotraukų spektrą skirtingais nustatymais.
Bostono universiteto ir „Google“ tyrimų grupė sukūrė „DreamBooth“ – pažangiausią techniką, skirtą pakeisti teksto į vaizdą modelius, kuriems buvo atliktas išsamus išankstinis mokymas.
Bendra koncepcija yra gana paprasta: jie nori išplėsti kalbos vizijos žodyną, kad neįprasti prieigos raktų ID būtų susieti su tinkintomis temomis, kurias galėtų apibrėžti vartotojai.
Pagrindinis modelio tikslas yra sujungti vartotojus su teksto į vaizdą sklaidos modelis suteikiant jiems išteklių, reikalingų fotorealistiniams pasirinkto dalyko atvaizdams sukurti.
Todėl atrodo, kad ši technika puikiai tinka apibendrinant iššūkius įvairiose situacijose.
Google DreamBooth skiriasi nuo ankstesnių teksto į vaizdą įrankių, tokių kaip DALL-E2, Stabili difuzijair Vidurinė kelionė, nes tai suteikia vartotojams daugiau galimybių valdyti temos vaizdą, prieš leidžiant jiems manipuliuoti sklaidos modeliu naudojant teksto įvestį.
Savybės
- „DreamBooth AI“ gali patobulinti teksto į vaizdą modelį su 3–5 vaizdais.
- Originalios fotorealistiškos nuotraukos gali būti sukurtos naudojant DreamBooth AI.
- Be to, „DreamBooth AI“ gali sukurti temos nuotraukas iš kelių kampų.
taikymas
Meno perteikimai
Ši užduotis labai skiriasi nuo stiliaus perkėlimo, nes išlaikoma šaltinio scenos semantika, kartu įtraukiant kito vaizdo stilių į pradinę sceną.
Remdamasis kūrybišku požiūriu, AI gali atlikti reikšmingus scenos pakeitimus, išlaikant identifikavimo ir temos egzempliorių specifiką.
Nuosavybės pakeitimas
Subjekto egzemplioriaus charakteristikas gali modifikuoti DreamBooth AI.
Priedai
Dėl stiprios kompozicijos prieš kartos modelį DreamBooth AI gebėjimas papuošti objektus yra toks įdomus.
Rekontekstualizacija
„DreamBooth AI“ gali sukurti išskirtinius vaizdus tam tikram dalyko egzemplioriui, pateikdamas apmokytam modeliui sakinį, apimantį unikalų identifikatorių ir klasės daiktavardį.
Jis gali sukurti subjektą unikaliomis, anksčiau negirdėtomis pozomis, artikuliacijomis ir scenos struktūra, o ne keisti aplinką. Realistiški atspindžiai ir šešėliai, taip pat subjekto ir aplinkinių objektų sąveika.
Dreambooth pamoka
Šioje pamokoje mes stebėsime Google Colab bloknotas, ir aš jus supažindinsiu su juo, o tai leis jums tai suprasti ir naudoti savarankiškai.
GPU nustatymas ir bibliotekų diegimas
Pirmas žingsnis yra išsiaiškinti, kokie GPU ir VRAM tipai yra galimi. Taip pat būtina įdiegti keletą reikalavimų ir priklausomybių. Tiesiog paspauskite paleidimo mygtuką, tada palaukite, kol baigsis.
Sukurkite paskyrą Huggingface ir sugeneruokite žetoną
Kitas žingsnis – užsiregistruoti Huggingface paskyrai. Baigę spustelėkite nustatymus viršutiniame dešiniajame kampe. Jūs pateksite į kitą puslapį.
Sukurkite prieigos raktą ir pavadinimą, kaip prašoma iš čia. Ženklas turėtų būti nukopijuotas ir įklijuotas į „Google“ bendradarbiavimą toliau esančiame langelyje.
Įdiekite xformers
Šiame etape galite tiesiog paspausti paleidimo mygtuką, kad įdiegtumėte „xformers“ spustelėdami vykdymo laiką.
Prisijunkite prie Disko
Dabar tereikia paleisti šį langelį, kad prisijungtumėte prie „Google“ disko.
Įveskite raginimą
Kitame langelyje tereikia įvesti raginimą.
Nuotraukų įkėlimas
Šiame žingsnyje tereikia įkelti nuotraukas, kurias norėjote treniruoti.
Traukinio AI modelį
Tai pats svarbiausias etapas, nes naudodami „DreamBooth“ mokysite naują AI modelį, pagrįstą visomis jūsų pateiktomis nuotraukomis. Turite apsiriboti dviem įvesties laukais. „—pavyzdžio raginimas“ yra pirmasis parametras. Čia turite pateikti labai skirtingą pavadinimą.
Argumentas „–concept list“ yra antrasis svarbus įvesties laukas. Jis turi būti pervardytas, kad atitiktų tą, kuris naudojamas skiltyje „Keisti raginimą“.
Generuokite AI vaizdus
Šiame etape bus sukurtos dirbtinio intelekto nuotraukos, kuriose galėsite įvesti teksto instrukcijas.
Dreambooth apribojimai
- Komandų eilutė tampa kliūtimi kartoti temą su dideliu detalumu. „DreamBooth“ gali pakeisti objekto kontekstą, tačiau jei modelis nori pakeisti patį objektą, kyla problemų dėl kadro.
- Kita problema yra per didelis išvesties vaizdo pritaikymas prie įvesties vaizdo. Jei nepateikiama pakankamai nuotraukų, objektas gali būti nesvarstytas arba gali būti sumaišytas su pateiktų vaizdų kontekstu. Kai klausiama konteksto nelyginei kartai, vyksta tas pats.
Išvada
Norint sukurti išvestis iš vienos teksto įvesties, daugumai teksto į vaizdą modelių reikia milijonų parametrų ir bibliotekų.
„DreamBooth“ vartotojams supaprastina turinio įsigijimą ir naudojimą, nes tereikia įvesti nuo trijų iki penkių temų nuotraukų kartu su tekstiniu fonu.
Palikti atsakymą