Kaundan[Itago][Ipakita]
Ang dagkong mga text-to-image nga mga modelo nakahimo og mahinungdanong pag-uswag sa pagpalambo sa AI pinaagi sa paghimo og taas nga kalidad ug nagkalain-laing hulagway nga synthesis gikan sa gihatag nga text prompt.
Kini nga mga modelo dili makahimo sa pag-synthesize sa talagsaon nga mga representasyon sa mga hilisgutan sa lain-laing mga setting o sa pagkopya sa dagway sa mga hilisgutan sa usa ka gihatag nga reference set.
Bag-ong gipagawas nga mga teknolohiya sama sa OpenAI's DALL.E2 o StabilityAI's Lig-on nga Pagsabwag ug Midjourney na sa internet pinaagi sa bagyo. Panahon na aron ipasibo ang mga resulta. Apan unsaon?
Ang Google DreamBooth AI miabot na.
Ang DreamBooth adunay katakus sa pag-ila sa hilisgutan sa usa ka litrato, pag-deconstruct niini gikan sa orihinal nga konteksto niini, ug dayon i-synthesize kini sa usa ka bag-ong gusto nga konteksto. Dugang pa, mahimo kini magamit sa mga karon nga mga generator sa litrato sa AI.
Niini nga artikulo, atong susihon pag-ayo ang DreamBooth, paggamit niini, pagtudlo niini, mga limitasyon niini, ug daghan pa.
Unsa ang Dreambooth?
dreambooth, usa ka bag-ong text-to-image diffusion model, gipresentar sa Google. Ang usa ka sinulat nga aghat mahimong gamiton isip giya sa Google DreamBooth AI aron makamugna og usa ka halapad nga mga litrato sa pinili nga hilisgutan sa user sa lain-laing mga setting.
Usa ka grupo sa panukiduki gikan sa Boston University ug Google ang nagpalambo sa DreamBooth, usa ka cutting-edge nga teknik alang sa pag-usab sa mga text-to-image nga mga modelo nga miagi sa daghang pre-training.
Ang kinatibuk-ang konsepto kay prangka: gusto nila nga dugangan ang diksyonaryo sa panan-awon sa lengguwahe sa ingon nga ang dili kasagaran nga mga token ID adunay kalabotan sa naandan nga mga hilisgutan nga mahimong ipasabut sa mga tiggamit.
Ang nag-unang tumong sa modelo mao ang pagkonektar sa mga tiggamit ngadto sa modelo sa pagsabwag sa text-to-image pinaagi sa paghatag kanila sa mga kahinguhaan nga ilang gikinahanglan aron makahimo og photorealistic nga mga representasyon sa mga higayon sa ilang gipili nga hilisgutan.
Ingon usa ka sangputanan, kini nga teknik ingon og maayo alang sa pag-summarize sa mga hagit sa lainlaing mga sitwasyon.
Ang DreamBooth sa Google lahi sa nangaging mga gamit sa text-to-image, sama sa DALL-E2, Lig-on nga Pagsabwag, Ug Tunga sa panaw, tungod kay kini naghatag sa mga tiggamit og dugang nga kontrol sa hilisgutan nga hulagway sa dili pa sila tugutan nga magmaniobra sa diffusion model gamit ang text-based inputs.
Features
- Ang DreamBooth AI mahimong makapauswag sa usa ka text-to-image nga modelo nga adunay 3-5 nga mga imahe.
- Ang orihinal nga photorealistic nga mga litrato mahimong mabuhat gamit ang DreamBooth AI.
- Dugang pa, ang DreamBooth AI makahimo og mga litrato sa usa ka hilisgutan gikan sa daghang mga anggulo.
Paggamit
Mga Art Rendition
Kini nga buluhaton lahi ilabina sa pagbalhin sa estilo, nga nagtipig sa mga semantiko sa tinubdan nga talan-awon samtang gilakip ang estilo sa laing hulagway ngadto sa orihinal nga talan-awon.
Pinasukad sa mamugnaon nga pamaagi, ang AI makahimo sa hinungdanon nga mga pagbag-o sa eksena samtang gipadayon ang pag-ila ug mga detalye sa pananglitan sa hilisgutan.
Pagbag-o sa kabtangan
Ang mga kinaiya sa pananglitan sa hilisgutan mahimong usbon sa DreamBooth AI.
Accessorization
Ang lig-on nga komposisyon sa wala pa ang modelo sa henerasyon mao ang nakapahimo sa katakus sa DreamBooth AI sa pag-adorno sa mga butang nga labi ka makapaikag.
Recontextualization
Ang DreamBooth AI makahimo og lahi nga mga hulagway alang sa usa ka pananglitan sa hilisgutan pinaagi sa paghatag sa usa ka nabansay nga modelo og usa ka sentence nga naglakip sa talagsaon nga identifier ug ang class noun.
Makahimo kini sa hilisgutan sa talagsaon, kaniadto wala madungog nga mga postura, mga artikulasyon, ug istruktura sa talan-awon imbes nga usbon ang palibot. Ang realistiko nga mga pagpamalandong ug mga anino, ingon man ang mga interaksyon tali sa hilisgutan ug sa palibot nga mga butang.
Tutorial sa Dreambooth
Niini nga panudlo, atong sundon ang Google Collab notebook, ug ako mogiya kanimo pinaagi niini, nga mopasabot kanimo ug sa paggamit niini sa imong kaugalingon.
Pag-set up sa GPU ug pag-instalar sa mga librarya
Ang pagpangita kung unsa nga mga klase sa GPU ug VRAM ang magamit mao ang una nga lakang. Ang pag-instalar sa pipila ka mga kinahanglanon ug dependency gikinahanglan usab. Pindota lang ang play button, unya hulata nga mahuman kini.
Paghimo og account sa Huggingface ug paghimo og token
Ang sunod nga lakang mao ang pagparehistro alang sa usa ka Huggingface account. Kung nahuman na nimo, i-klik ang mga setting sa taas nga tuo nga suok. Moabot ka sa sunod nga panid.
Paghimo sa token ug ngalan ingon nga gihangyo gikan dinhi. Ang token kinahanglan nga kopyahon ug idikit sa Google collab sa cell sa ubos.
I-install ang xformers
Niini nga yugto, mahimo nimong ipadayon ang play button aron ma-install ang xformers pinaagi sa pag-klik sa runtime.
Sumpaysumpaya sa Drive
Karon, kinahanglan nimo nga padaganon kini nga cell aron makonektar sa google drive.
Pagsulod sa prompt
Sa mosunod nga cell, kinahanglan ka lang nga mosulod sa prompt.
Pag-upload og mga hulagway
Niini nga lakang, kinahanglan nimo nga i-upload ang mga litrato nga gusto nimo nga bansayon.
Pagbansay sa modelo sa AI
Kini ang labing hinungdanon nga yugto, tungod kay gamiton nimo ang DreamBooth aron mabansay ang usa ka bag-ong modelo sa AI nga gibase sa tanan nimong gisumite nga mga reperensya nga litrato. Kinahanglang limitahan nimo ang imong pagtagad sa duha ka input field. Ang "—instance prompt" mao ang unang parameter. Kinahanglan ka nga maghatag usa ka lahi kaayo nga ngalan dinhi.
Ang argumento nga '–concept list' mao ang ikaduhang kritikal nga input field. Kinahanglang bag-ohon kini sa ngalan aron mohaum sa gigamit sa seksyon nga 'Usba ang prompt'.
Paghimo mga imahe sa AI
Ang AI nga mga hulagway pagahimoon niining yugtoa, diin mahimo nimong i-input ang mga instruksyon sa teksto.
Mga Limitasyon sa Dreambooth
- Ang command prompt nahimong babag sa paghimo og mga pag-uli sa hilisgutan nga adunay taas nga lebel sa detalye. Mahimong usbon sa DreamBooth ang konteksto sa hilisgutan, apan kung gusto sa modelo nga usbon ang hilisgutan mismo, adunay mga isyu sa frame.
- Ang laing isyu mao ang pag-overfitting sa output picture sa input image. Kung walay igo nga mga hulagway nga gihatag, ang hilisgutan mahimong dili isipon o mahimong isagol sa konteksto sa gisumite nga mga hulagway. Kung ang usa ka konteksto alang sa usa ka lahi nga henerasyon gipangutana, parehas nga butang ang mahitabo.
Panapos
Aron makahimo og mga output gikan sa usa ka text input, ang kinabag-an sa text-to-image nga mga modelo nagkinahanglan og minilyon nga mga parameter ug library.
Gipasimple sa DreamBooth ang pagkuha ug paggamit sa sulud alang sa mga konsumedor pinaagi sa pagkinahanglan lamang sa input nga tulo hangtod lima nga litrato sa hilisgutan kauban ang background sa teksto.
Leave sa usa ka Reply