Sisällysluettelo[Piilottaa][Näytä]
Suuret tekstistä kuvaksi -mallit edistyivät merkittävästi tekoälyn kehityksessä tuottamalla korkealaatuista ja monipuolista kuvasynteesiä annetusta tekstikehotteesta.
Nämä mallit eivät pysty syntetisoimaan yksilöllisiä esityksiä kohteista eri olosuhteissa tai toistamaan kohteiden ulkoasua tietyssä vertailujoukossa.
Äskettäin julkaistut tekniikat, kuten OpenAI:n DALL.E2 tai StabilityAI Vakaa diffuusio ja Midjourney valtaavat jo internetin. Nyt on aika mukauttaa tuloksia. Mutta kuinka?
Google DreamBooth AI on saapunut.
DreamBoothilla on kyky tunnistaa kuvan aihe, purkaa se alkuperäisestä kontekstistaan ja sitten syntetisoida se tarkasti uuteen haluttuun kontekstiin. Lisäksi sitä voidaan käyttää nykyisten AI-kuvageneraattoreiden kanssa.
Tässä artikkelissa tarkastellaan syvällisesti DreamBoothia, sen käyttöä, opetusohjelmaa, sen rajoituksia ja paljon muuta.
Mikä on Dreambooth?
unelmakoppiGoogle esitteli upouuden tekstistä kuvaksi diffuusiomallin. Google DreamBooth AI voi käyttää kirjallista kehotetta ohjeena luodakseen laajan valikoiman kuvia käyttäjän valitsemasta aiheesta eri asetuksissa.
Bostonin yliopiston ja Googlen tutkimusryhmä kehittivät DreamBoothin, huippuluokan tekniikan laajan esikoulutuksen läpikäyneiden tekstistä kuvaksi -mallien muuttamiseksi.
Kokonaiskonsepti on melko suoraviivainen: he haluavat laajentaa kielen visio-sanakirjaa siten, että epätavalliset tunnukset yhdistetään mukautettuihin aiheisiin, jotka käyttäjät voivat määrittää.
Mallin päätavoite on yhdistää käyttäjät tekstistä kuvaksi diffuusiomalli antamalla heille resurssit, joita he tarvitsevat tuottaakseen fotorealistisia esityksiä valitsemansa aiheen tapauksista.
Tämän seurauksena tämä tekniikka näyttää toimivan hyvin haasteiden yhteenvedossa useissa tilanteissa.
Googlen DreamBooth eroaa aiemmista tekstistä kuvaksi -työkaluista, kuten DALL-E2, Vakaa diffuusioja Keskimatka, koska se antaa käyttäjille enemmän hallintaa aihekuvasta, ennen kuin he voivat käsitellä diffuusiomallia tekstipohjaisten syötteiden avulla.
Ominaisuudet
- DreamBooth AI saattaa parantaa tekstistä kuvaksi -mallia, jossa on 3–5 kuvaa.
- DreamBooth AI:lla voidaan luoda alkuperäisiä fotorealistisia valokuvia.
- Lisäksi DreamBooth AI voi luoda kuvia aiheesta useista näkökulmista.
Hakemus
Taiteen esitykset
Tämä tehtävä eroaa nimenomaan tyylinsiirrosta, joka säilyttää lähdekohtauksen semantiikan ja yhdistää toisen kuvan tyylin alkuperäiseen kohtaukseen.
Luovan lähestymistavan perusteella tekoäly voi tehdä merkittäviä kohtausmuutoksia säilyttäen samalla tunniste- ja aihekohtaiset erityispiirteet.
Omaisuuden muutos
DreamBooth AI voi muokata kohteen ilmentymän ominaisuuksia.
Varusteet
Sukupolvimallia edeltävä vahva koostumus tekee DreamBooth AI:n kyvystä koristella esineitä niin mielenkiintoisen.
Rekontekstualisointi
DreamBooth AI voi tuottaa erottuvia kuvia tietylle aiheelle antamalla koulutetulle mallille lauseen, joka sisältää yksilöllisen tunnisteen ja luokan substantiivin.
Se voi luoda kohteen ainutlaatuisissa, aiemmin tuntemattomissa asennoissa, artikulaatioissa ja kohtausrakenteessa ympäristön muuttamisen sijaan. Realistisia heijastuksia ja varjoja sekä kohteen ja ympäröivien esineiden välistä vuorovaikutusta.
Dreambooth opetusohjelma
Tässä opetusohjelmassa seuraamme Google Collab -muistikirja, ja opastan sinut sen läpi, mikä saa sinut ymmärtämään ja käyttämään sitä itse.
GPU:n asetukset ja kirjastojen asentaminen
Ensimmäinen askel on selvittää, mitä GPU- ja VRAM-tyyppejä on saatavilla. Muutamien vaatimusten ja riippuvuuksien asentaminen on myös tarpeen. Paina vain toistopainiketta ja odota sen päättymistä.
Luo tili Huggingfacessa ja luo tunnus
Seuraava vaihe on Huggingface-tilin rekisteröinti. Kun olet valmis, napsauta asetukset oikeassa yläkulmassa. Tulet seuraavalle sivulle.
Luo tunnus ja nimi pyydettäessä täältä. Tunniste tulee kopioida ja liittää alla olevassa solussa olevaan Google-yhteistyöhön.
Asenna xformers
Tässä vaiheessa voit yksinkertaisesti painaa toistopainiketta asentaaksesi xformersin napsauttamalla suoritusaikaa.
Yhdistä Driveen
Nyt sinun on vain suoritettava tämä solu muodostaaksesi yhteyden Google Driveen.
Anna kehote
Seuraavaan soluun sinun tarvitsee vain kirjoittaa kehote.
Kuvien lataaminen
Tässä vaiheessa sinun tarvitsee vain ladata kuvat, joita haluat harjoitella.
Juna AI malli
Tämä on tärkein vaihe, sillä käytät DreamBoothia uuden tekoälymallin kouluttamiseen kaikkien lähettämiesi vertailukuvien perusteella. Sinun on rajoitettava huomiosi kahteen syöttökenttään. "—instanssikehote" on ensimmäinen parametri. Sinun on annettava tässä erittäin erottuva nimi.
Argumentti "–käsiteluettelo" on toinen kriittinen syöttökenttä. Se on nimettävä uudelleen vastaamaan Muuta kehotetta -osiossa käytettyä nimeä.
Luo tekoälykuvia
Tässä vaiheessa luodaan tekoälykuvat, joihin voit syöttää tekstiohjeet.
Dreamboothin rajoitukset
- Komentokehotteesta tulee este toistojen tekemiselle aiheessa erittäin yksityiskohtaisesti. DreamBooth voi muuttaa kohteen kontekstia, mutta jos malli haluaa vaihtaa itse aihetta, kehyksessä on ongelmia.
- Toinen ongelma on ulostulokuvan sovittaminen liikaa tulokuvaan. Jos kuvia ei ole toimitettu tarpeeksi, aihetta ei ehkä oteta huomioon tai se voidaan sekoittaa lähetettyjen kuvien kontekstiin. Kun kysytään kontekstia parittomalle sukupolvelle, tapahtuu sama asia.
Yhteenveto
Suurin osa tekstistä kuvaksi -malleista vaatii miljoonia parametreja ja kirjastoja tulosteiden tuottamiseksi yhdestä tekstinsyötöstä.
DreamBooth yksinkertaistaa sisällön hankintaa ja käyttöä kuluttajien kannalta vaatimalla vain kolmesta viiteen aihekuvaa ja tekstitaustaa.
Jätä vastaus