Werrej[Aħbi][Uri]
Mudelli kbar minn test għal immaġni għamlu avvanz sinifikanti fl-iżvilupp tal-IA billi pproduċew sintesi ta 'stampa ta' kwalità għolja u diversifikata minn test partikolari fil-pront.
Dawn il-mudelli ma jistgħux jissintetizzaw rappreżentazzjonijiet uniċi ta 'suġġetti f'diversi settings jew jirreplikaw id-dehra tas-suġġetti f'sett ta' referenza partikolari.
Teknoloġiji rilaxxati ġodda bħal DALL.E2 ta 'OpenAI jew StabilityAI's Diffużjoni Stabbli u Midjourney diġà qed jieħdu l-internet mill-isbah. Issa wasal iż-żmien li tippersonalizza r-riżultati. Iżda kif?
Google DreamBooth AI wasal.
DreamBooth għandu l-abbiltà li jirrikonoxxi s-suġġett ta 'stampa, jiddekostruh mill-kuntest oriġinali tiegħu, u mbagħad jissintetizzah b'mod preċiż f'kuntest ġdid mixtieq. Barra minn hekk, jista 'jintuża ma' ġeneraturi ta 'stampa AI attwali.
F'dan l-artikolu, aħna ser nagħtu ħarsa fil-fond lejn DreamBooth, l-użu tiegħu, it-tutorja tiegħu, il-limitazzjonijiet tiegħu, u ħafna aktar.
X'inhu Dreambooth?
dreambooth, mudell ġdid fjamant ta 'diffużjoni minn test għal immaġni, ġie ppreżentat minn Google. Prompt bil-miktub jista' jintuża bħala gwida minn Google DreamBooth AI biex jiġġenera firxa wiesgħa ta' ritratti tas-suġġett magħżul mill-utent f'settings differenti.
Grupp ta’ riċerka mill-Università ta’ Boston u Google żviluppaw DreamBooth, teknika avvanzata biex tbiddel mudelli minn test għal immaġni li għaddew minn taħriġ estensiv minn qabel.
Il-kunċett ġenerali huwa pjuttost sempliċi: iridu jżidu d-dizzjunarju tal-viżjoni tal-lingwa b'tali mod li l-IDs tat-tokens mhux komuni jkunu assoċjati ma 'suġġetti personalizzati li l-utenti jistgħu jiddefinixxu.
L-għan ewlieni tal-mudell huwa li jgħaqqad l-utenti mal- mudell ta' diffużjoni minn test għal immaġini billi tagħtihom ir-riżorsi li jeħtieġu biex jipproduċu rappreżentazzjonijiet fotorealistiċi tal-istanzi tas-suġġett magħżul tagħhom.
Bħala konsegwenza, din it-teknika tidher li taħdem tajjeb biex tiġbor fil-qosor l-isfidi f’firxa ta’ sitwazzjonijiet.
DreamBooth ta' Google huwa differenti minn għodod preċedenti minn test għal immaġni, bħal DALL-E2, Diffużjoni Stabbli, u Nofs il-vjaġġ, fis-sens li tagħti lill-utenti aktar kontroll fuq l-immaġni tas-suġġett qabel ma tħallihom jimmanipulaw il-mudell tad-diffużjoni bl-użu ta 'inputs ibbażati fuq it-test.
Karatteristiċi
- DreamBooth AI jista' jtejjeb mudell minn test għal immaġni bi 3-5 immaġini.
- Ritratti fotorealistiċi oriġinali jistgħu jinħolqu b'DreamBooth AI.
- Barra minn hekk, il-DreamBooth AI tista 'toħloq ritratti ta' suġġett minn angoli multipli.
applikazzjoni
Kundizzjonijiet tal-Arti
Dan il-kompitu jvarja speċifikament mit-trasferiment tal-istil, li jżomm is-semantika tax-xena tas-sors filwaqt li jinkorpora l-istil ta 'immaġni oħra fix-xena oriġinali.
Ibbażat fuq l-approċċ kreattiv, l-AI tista 'twettaq alterazzjonijiet sinifikanti tax-xena filwaqt li żżomm l-identifikazzjoni u l-ispeċifiċitajiet tal-istanza tas-suġġett.
Modifika tal-Proprjetà
Il-karatteristiċi tal-istanza tas-suġġett jistgħu jiġu modifikati minn DreamBooth AI.
Aċċessorizzazzjoni
Il-kompożizzjoni qawwija qabel il-mudell tal-ġenerazzjoni hija dak li jagħmel l-abbiltà ta 'DreamBooth AI li jżejjen oġġetti tant interessanti.
Rikontestwalizzazzjoni
DreamBooth AI tista' tipproduċi immaġini distintivi għal ċertu istanza ta' suġġett billi tagħti mudell imħarreġ sentenza li tinkludi l-identifikatur uniku u n-nom tal-klassi.
Jista 'jiġġenera s-suġġett f'qagħdiet, artikulazzjonijiet u struttura tax-xena uniċi, li qabel ma smajtx, aktar milli tbiddel l-inħawi. Riflessjonijiet u dellijiet realistiċi, kif ukoll interazzjonijiet bejn is-suġġett u l-oġġetti tal-madwar.
Tutorja Dreambooth
F'dan it-tutorja, se nkunu qed insegwu l- Notebook Google Collab, u jien se nmexxik permezz tagħha, li se jġiegħlek tifhem u tużah waħdek.
Twaqqif ta 'GPU u installazzjoni ta' libreriji
L-ewwel pass huwa li tkun taf liema tipi ta 'GPU u VRAM huma disponibbli. L-installazzjoni ta 'ftit rekwiżiti u dipendenzi hija wkoll meħtieġa. Sempliċement agħfas il-buttuna tal-logħob, imbagħad stenna li tispiċċa.
Oħloq kont fuq Huggingface u iġġenera token
Il-pass li jmiss huwa li tirreġistra għal kont Huggingface. Meta tkun lestejt, ikklikkja settings fir-rokna ta' fuq tal-lemin. Inti tasal fil-paġna li jmiss.
Oħloq it-token u l-isem kif mitlub minn hawn. It-token għandu jiġi kkupjat u pasted fil-kollab ta 'Google fiċ-ċellula hawn taħt.
Installa xformers
F'dan l-istadju, tista 'sempliċement tagħfas il-buttuna tal-logħob biex tinstalla xformers billi tikklikkja fuq ir-runtime.
Qabbad ma' Drive
Issa, għandek biss tħaddem din iċ-ċellula biex tikkonnettja mal-google drive.
Daħħal il-pront
Fiċ-ċellula li ġejja, għandek biss tidħol fil-pront.
Tlugħ ta' stampi
F'dan il-pass, għandek biss ittella' l-istampi li ridt tħarreġ.
Ferrovija mudell AI
Din hija l-aktar fażi importanti, peress li se tkun qed tuża DreamBooth biex tħarreġ mudell AI ġdid ibbażat fuq ir-ritratti ta’ referenza kollha sottomessi tiegħek. Trid tillimita l-attenzjoni tiegħek għal żewġ oqsma ta' input. “—instance prompt” huwa l-ewwel parametru. Trid tipprovdi isem distint ħafna hawn.
L-argument '–lista ta' kunċetti' huwa t-tieni qasam ta' input kritiku. Għandha tissemma mill-ġdid biex taqbel ma' dik użata fit-taqsima 'Ibdel il-pront'.
Iġġenera immaġini AI
L-istampi AI se jinħolqu f'dan l-istadju, fejn tista' ddaħħal l-istruzzjonijiet tat-test.
Limitazzjonijiet Dreambooth
- Il-pront tal-kmand isir ostaklu biex isiru iterazzjonijiet fis-suġġett bi gradi għoljin ta 'dettall. DreamBooth jista 'jbiddel il-kuntest tas-suġġett, iżda jekk il-mudell jixtieq ibiddel is-suġġett innifsu, hemm kwistjonijiet bil-qafas.
- Kwistjoni oħra hija żżejjed l-istampa tal-output għall-immaġni tal-input. Jekk ma jkunx hemm biżżejjed stampi fornuti, is-suġġett jista' ma jiġix ikkunsidrat jew jista' jiġi mħallat mal-kuntest tal-immaġini sottomessi. Meta tintalab kuntest għal ġenerazzjoni fard, isseħħ l-istess ħaġa.
konklużjoni
Biex tipproduċi outputs minn input ta 'test wieħed, il-biċċa l-kbira tal-mudelli minn test għal immaġni jeħtieġu miljuni ta' parametri u libreriji.
DreamBooth jissimplifika l-akkwist u l-użu tal-kontenut għall-konsumaturi billi jeħtieġ biss l-input ta’ tlieta sa ħames ritratti ta’ suġġetti flimkien ma’ sfond testwali.
Ħalli Irrispondi