Efnisyfirlit[Fela][Sýna]
Stór texta-í-mynd líkön náðu umtalsverðum framförum í þróun gervigreindar með því að framleiða hágæða og fjölbreytta myndmyndun út frá tiltekinni textakvaðningu.
Þessi líkön eru ófær um að búa til einstaka framsetningu á viðfangsefnum í ýmsum aðstæðum eða endurtaka útlit viðfangsefna í tilteknu viðmiðunarsetti.
Nýútgefin tækni eins og DALL.E2 frá OpenAI eða StabilityAI Stöðugt dreifing og Midjourney eru þegar farin að taka internetið með stormi. Nú er kominn tími til að sérsníða niðurstöðurnar. Samt hvernig?
Google DreamBooth AI er kominn.
DreamBooth hefur getu til að bera kennsl á efni myndar, afbyggja það frá upprunalegu samhengi, og síðan nákvæmlega sameina það í nýtt æskilegt samhengi. Að auki er hægt að nota það með núverandi gervigreindarmyndavélum.
Í þessari grein munum við skoða DreamBooth djúpt, notkun þess, kennsluefni þess, takmarkanir þess og margt fleira.
Hvað er Dreambooth?
draumaskála, glænýtt líkan fyrir dreifingu texta í mynd, var kynnt af Google. Skrifleg hvetja er hægt að nota sem leiðbeiningar af Google DreamBooth AI til að búa til breitt úrval mynda af völdum myndefni notandans í mismunandi stillingum.
Rannsóknarhópur frá Boston University og Google þróaði DreamBooth, háþróaða tækni til að breyta texta-í-mynd módelum sem hafa farið í gegnum mikla forþjálfun.
Heildarhugtakið er frekar einfalt: þeir vilja auka tungumálasýnarorðabókina þannig að óalgeng auðkenni tákna eru tengd sérsniðnum viðfangsefnum sem notendur geta skilgreint.
Meginmarkmið líkansins er að tengja notendur við texta-í-mynd dreifingarlíkan með því að gefa þeim það fjármagn sem þeir þurfa til að framleiða ljósraunsæjar framsetningar á tilvikum þess efnis sem þeir hafa valið.
Þess vegna virðist þessi tækni virka vel til að draga saman áskoranir í ýmsum aðstæðum.
DreamBooth frá Google er frábrugðin fyrri texta-í-mynd verkfærum, svo sem DALL-E2, Stöðugt dreifingog Miðferð, að því leyti að það veitir notendum meiri stjórn á efnismyndinni áður en þeim er leyft að vinna með dreifingarlíkanið með því að nota textabundið inntak.
Aðstaða
- DreamBooth AI gæti bætt texta-í-mynd líkan með 3-5 myndum.
- Hægt er að búa til upprunalegar ljósraunsæjar myndir með DreamBooth AI.
- Að auki getur DreamBooth AI búið til myndir af efni frá mörgum sjónarhornum.
Umsókn
Listflutningar
Þetta verkefni er sérstaklega frábrugðið stílflutningi, sem heldur merkingarfræði upprunasenunnar á sama tíma og stíl annarrar myndar fellur inn í upprunalegu atriðið.
Byggt á skapandi nálguninni getur gervigreindin framkvæmt umtalsverðar breytingar á vettvangi á sama tíma og viðheldur auðkenningu og tilviki viðfangsefnisins.
Eignabreyting
Hægt er að breyta eiginleikum viðfangsefnisins með DreamBooth AI.
Aukabúnaður
Hin sterka samsetning fyrir kynslóðarlíkanið er það sem gerir getu DreamBooth AI til að prýða hluti svo áhugaverðan.
Recontextualization
DreamBooth AI getur framleitt áberandi myndir fyrir tiltekið efnistilvik með því að gefa þjálfuðu líkani setningu sem inniheldur einstakt auðkenni og flokksnafnorð.
Það getur myndað viðfangsefnið í einstökum, áður fáheyrðum stellingum, framsetningu og senuuppbyggingu frekar en að breyta umhverfinu. Raunhæfar speglanir og skuggar, sem og víxlverkun milli myndefnis og nærliggjandi hluta.
Dreambooth kennsla
Í þessari kennslu munum við fylgjast með Google Collab minnisbók, og ég mun leiða þig í gegnum það, sem mun fá þig til að skilja og nota það á eigin spýtur.
Setja upp GPU og setja upp bókasöfn
Að komast að því hvaða GPU og VRAM tegundir eru í boði er fyrsta skrefið. Að setja upp nokkrar kröfur og ósjálfstæði er einnig nauðsynlegt. Ýttu einfaldlega á spilunarhnappinn og bíddu svo eftir að honum lýkur.
Búðu til reikning á Huggingface og búðu til tákn
Næsta skref er að skrá sig á Huggingface reikning. Þegar þú hefur lokið því skaltu smella á stillingar efst í hægra horninu. Þú kemur á næstu síðu.
Búðu til táknið og nafnið eins og beðið er um héðan. Táknið ætti að afrita og líma inn í Google samstarfið í reitnum fyrir neðan.
Settu upp xformers
Á þessu stigi geturðu einfaldlega ýtt á spilunarhnappinn til að setja upp xformers með því að smella á keyrslutímann.
Tengstu við Drive
Nú þarftu bara að keyra þennan reit til að tengjast Google drifinu.
Sláðu inn hvetja
Í eftirfarandi reit þarftu bara að slá inn hvetja.
Að hlaða inn myndum
Í þessu skrefi þarftu bara að hlaða upp myndunum sem þú vildir þjálfa.
Þjálfa gervigreind líkan
Þetta er mikilvægasti áfanginn, þar sem þú munt nota DreamBooth til að þjálfa nýtt gervigreind líkan byggt á öllum innsendum viðmiðunarmyndum þínum. Þú verður að takmarka athygli þína við tvo innsláttarreita. „—tilvik hvetja“ er fyrsta færibreytan. Þú verður að gefa upp mjög sérstakt nafn hér.
Rökin '–hugtakslisti' eru annað mikilvæga innsláttarreiturinn. Það verður að endurnefna til að passa við það sem notað er í hlutanum 'Breyta boðinu'.
Búðu til gervigreindarmyndir
AI myndirnar verða búnar til á þessu stigi, þar sem þú getur sett inn textaleiðbeiningarnar.
Dreambooth takmarkanir
- Skipunarfyrirmælin verða hindrun í því að gera endurtekningar í efninu með miklum smáatriðum. DreamBooth getur breytt samhengi viðfangsefnisins, en ef líkanið vill breyta myndefninu sjálfu eru vandamál með rammann.
- Annað mál er að ofpassa úttaksmyndina við inntaksmyndina. Ef það eru ekki nægar myndir til staðar er hugsanlegt að viðfangsefnið komi ekki til greina eða gæti verið blandað saman við samhengi innsendra mynda. Þegar spurt er um samhengi fyrir staka kynslóð gerist það sama.
Niðurstaða
Til að framleiða úttak úr einni textainnslátt, krefjast meginhluti texta-í-mynd líkana milljóna breytur og bókasöfn.
DreamBooth einfaldar efnisöflun og notkun fyrir neytendur með því að krefjast inntaks þriggja til fimm efnismynda ásamt textabakgrunni.
Skildu eftir skilaboð