Sadržaj[Sakrij][Prikaži]
Veliki modeli od teksta do slike napravili su značajan napredak u razvoju AI tako što su proizveli visokokvalitetnu i raznoliku sintezu slike iz datog tekstualnog odzivnika.
Ovi modeli nisu u stanju da sintetiziraju jedinstvene reprezentacije subjekata u različitim okruženjima ili da repliciraju izgled subjekata u datom referentnom skupu.
Nove tehnologije kao što su OpenAI DALL.E2 ili StabilityAI stabilna difuzija i Midjourney već osvajaju internet. Sada je vrijeme da prilagodite rezultate. Ali kako?
Google DreamBooth AI je stigao.
DreamBooth ima sposobnost da prepozna temu slike, dekonstruiše je iz njenog originalnog konteksta, a zatim je precizno sintetizira u novi željeni kontekst. Dodatno, može se koristiti sa trenutnim AI generatorima slike.
U ovom članku ćemo detaljno pogledati DreamBooth, njegovu upotrebu, tutorijal, ograničenja i još mnogo toga.
Šta je Dreambooth?
dreambooth, potpuno novi model difuzije teksta u sliku, predstavio je Google. Google DreamBooth AI može koristiti pisani upit kao smjernicu za generiranje širokog spektra fotografija odabranog subjekta korisnika u različitim postavkama.
Istraživačka grupa sa Bostonskog univerziteta i Google-a razvila je DreamBooth, najsavremeniju tehniku za promjenu modela teksta u sliku koji su prošli opsežnu prethodnu obuku.
Cjelokupni koncept je prilično jednostavan: oni žele povećati rječnik jezične vizije tako da su neobični ID-ovi tokena povezani s prilagođenim temama koje korisnici mogu definirati.
Osnovni cilj modela je povezivanje korisnika sa model difuzije teksta u sliku dajući im resurse koji su im potrebni da proizvedu fotorealistične reprezentacije instanci njihovog odabranog predmeta.
Kao posljedica toga, čini se da ova tehnika dobro funkcionira za sumiranje izazova u nizu situacija.
Google-ov DreamBooth se razlikuje od prethodnih alata za pretvaranje teksta u sliku, kao što su DALL-E2, stabilna difuzija, I midjourney, u tome što korisnicima daje veću kontrolu nad slikom teme prije nego im dopusti da manipuliraju modelom difuzije koristeći unose zasnovane na tekstu.
Značajke
- DreamBooth AI bi mogao poboljšati model teksta u sliku sa 3-5 slika.
- Originalne fotorealistične fotografije mogu se kreirati pomoću DreamBooth AI.
- Osim toga, DreamBooth AI može kreirati fotografije teme iz više uglova.
aplikacija
Art Renditions
Ovaj zadatak se posebno razlikuje od prijenosa stila, koji zadržava semantiku izvorne scene dok uključuje stil druge slike u originalnu scenu.
Zasnovano na kreativnom pristupu, AI može postići značajne promjene scene uz zadržavanje specifičnosti identifikacije i instance teme.
Property Modification
Karakteristike predmetne instance mogu se modifikovati pomoću DreamBooth AI.
Accessorization
Snažna kompozicija prije modela generacije je ono što čini sposobnost DreamBooth AI da ukrašava objekte tako zanimljivom.
Rekontekstualizacija
DreamBooth AI može proizvesti prepoznatljive slike za određenu instancu subjekta dajući obučenom modelu rečenicu koja uključuje jedinstveni identifikator i imenicu klase.
Može stvoriti subjekt u jedinstvenim, do tada nečuvenim položajima, artikulacijama i strukturi scene umjesto da mijenja okolinu. Realistične refleksije i sjene, kao i interakcije između subjekta i okolnih objekata.
Dreambooth tutorial
U ovom tutorijalu pratit ćemo Google Collab notebook, a ja ću vas provesti kroz to, što će vam pomoći da ga sami shvatite i koristite.
Postavljanje GPU-a i instaliranje biblioteka
Prvi korak je saznanje koje vrste GPU-a i VRAM-a su dostupne. Instaliranje nekoliko zahtjeva i zavisnosti je također neophodno. Jednostavno pritisnite dugme za reprodukciju, a zatim sačekajte da se završi.
Kreirajte nalog na Huggingfaceu i generirajte token
Sljedeći korak je registracija za Huggingface nalog. Kada završite, kliknite na postavke u gornjem desnom uglu. Stići ćete na sljedećoj stranici.
Kreirajte token i ime prema zahtjevu odavde. Token treba kopirati i zalijepiti u Google kolab u ćeliji ispod.
Instalirajte xformers
U ovoj fazi, možete jednostavno pritisnuti dugme za reprodukciju da biste instalirali xformers klikom na runtime.
Povežite se na Disk
Sada samo trebate pokrenuti ovu ćeliju da se povežete s google diskom.
Unesite upit
U sljedećoj ćeliji, samo trebate unijeti prompt.
Učitavanje slika
U ovom koraku, samo morate da otpremite slike koje želite da trenirate.
Vlak AI model
Ovo je najvažnija faza, jer ćete koristiti DreamBooth za obuku novog AI modela na osnovu svih vaših dostavljenih referentnih fotografija. Morate ograničiti svoju pažnju na dva polja za unos. “—instance prompt” je prvi parametar. Ovdje morate navesti vrlo jasno ime.
Argument '–concept list' je drugo kritično polje unosa. Mora se preimenovati kako bi odgovarao onom koji se koristi u odjeljku 'Promijeni prompt'.
Generirajte AI slike
AI slike će biti kreirane u ovoj fazi, gdje možete unijeti tekstualne upute.
Dreambooth Limitations
- Komandni redak postaje prepreka pravljenju iteracija u temi sa visokim stepenom detalja. DreamBooth može promijeniti kontekst subjekta, ali ako model želi sam promijeniti subjekt, postoje problemi s okvirom.
- Drugi problem je preuklapanje izlazne slike na ulaznu sliku. Ako nema dovoljno slika, predmet se možda neće uzeti u obzir ili se može pomiješati s kontekstom poslanih slika. Kada se pita kontekst za neobičnu generaciju, dešava se ista stvar.
zaključak
Za proizvodnju izlaza iz jednog unosa teksta, većina modela teksta u sliku zahtijeva milione parametara i biblioteka.
DreamBooth pojednostavljuje preuzimanje i korištenje sadržaja za potrošače zahtijevajući samo unos od tri do pet tematskih fotografija zajedno s tekstualnom pozadinom.
Ostavite odgovor