Tabl Cynnwys[Cuddio][Dangos]
Gwnaeth modelau testun-i-ddelwedd mawr gynnydd sylweddol yn natblygiad Deallusrwydd Artiffisial trwy gynhyrchu synthesis llun amrywiol o ansawdd uchel o anogwr testun penodol.
Nid yw'r modelau hyn yn gallu syntheseiddio cynrychioliadau unigryw o bynciau mewn lleoliadau amrywiol nac atgynhyrchu ymddangosiad pynciau mewn set gyfeirio benodol.
Technolegau sydd newydd eu rhyddhau fel DALL.E2 OpenAI neu StabilityAI's Trylediad Sefydlog a Midjourney eisoes yn cymryd y rhyngrwyd gan storm. Mae bellach yn bryd addasu'r canlyniadau. Ond sut?
Mae Google DreamBooth AI wedi cyrraedd.
Mae gan DreamBooth y gallu i adnabod pwnc llun, ei ddadadeiladu o'i gyd-destun gwreiddiol, ac yna ei syntheseiddio'n union i gyd-destun dymunol newydd. Yn ogystal, gellir ei ddefnyddio gyda generaduron lluniau AI cyfredol.
Yn yr erthygl hon, byddwn yn edrych yn ddwfn ar DreamBooth, ei ddefnydd, ei diwtorial, ei gyfyngiadau, a llawer mwy.
Beth yw Dreambooth?
breuddwyd, model tryledu testun-i-ddelwedd newydd sbon, ei gyflwyno gan Google. Gall Google DreamBooth AI ddefnyddio anogwr ysgrifenedig i gynhyrchu ystod eang o luniau o'r pwnc a ddewiswyd gan y defnyddiwr mewn gwahanol leoliadau.
Datblygodd grŵp ymchwil o Brifysgol Boston a Google DreamBooth, techneg flaengar ar gyfer newid modelau testun-i-ddelwedd sydd wedi cael hyfforddiant cyn-hyfforddiant helaeth.
Mae'r cysyniad cyffredinol braidd yn syml: maent am gynyddu'r geiriadur iaith-gweledigaeth fel bod IDau tocyn anghyffredin yn gysylltiedig â phynciau arfer y gall defnyddwyr eu diffinio.
Prif nod y model yw cysylltu defnyddwyr â'r model tryledu testun-i-ddelwedd trwy roi'r adnoddau sydd eu hangen arnynt i gynhyrchu cynrychioliadau ffotorealistig o'r achosion o'r pwnc a ddewiswyd ganddynt.
O ganlyniad, mae'n ymddangos bod y dechneg hon yn gweithio'n dda ar gyfer crynhoi heriau mewn amrywiaeth o sefyllfaoedd.
Mae DreamBooth Google yn wahanol i offer testun-i-ddelwedd blaenorol, megis DALL-E2, Trylediad Sefydlog, a Canol siwrnai, yn yr ystyr ei fod yn rhoi mwy o reolaeth i ddefnyddwyr dros y ddelwedd pwnc cyn gadael iddynt drin y model tryledu gan ddefnyddio mewnbynnau testun.
Nodweddion
- Gallai DreamBooth AI wella model testun-i-ddelwedd gyda 3-5 delwedd.
- Gellir creu lluniau ffotorealistig gwreiddiol gyda DreamBooth AI.
- Yn ogystal, gall y DreamBooth AI greu lluniau o bwnc o onglau lluosog.
Cymhwyso
Darluniau Celf
Mae'r dasg hon yn wahanol yn benodol i drosglwyddo arddull, sy'n cadw semanteg yr olygfa ffynhonnell tra'n ymgorffori arddull delwedd arall yn yr olygfa wreiddiol.
Yn seiliedig ar y dull creadigol, gall yr AI gyflawni newidiadau sylweddol i'r olygfa wrth gynnal yr adnabyddiaeth a manylion yr achos pwnc.
Addasu Eiddo
Gall DreamBooth AI addasu nodweddion yr enghraifft pwnc.
Accessorization
Y cyfansoddiad cryf cyn y model cenhedlaeth sy'n gwneud gallu DreamBooth AI i addurno gwrthrychau mor ddiddorol.
Ail-gyd-destunoli
Gall DreamBooth AI gynhyrchu delweddau nodedig ar gyfer achos pwnc penodol trwy roi brawddeg i fodel hyfforddedig sy'n cynnwys y dynodwr unigryw ac enw'r dosbarth.
Gall gynhyrchu'r pwnc mewn ystumiau, ynganiadau, a strwythur golygfa unigryw, nas clywyd o'r blaen, yn hytrach na newid yr amgylchedd. Myfyrdodau a chysgodion realistig, yn ogystal â rhyngweithiadau rhwng y gwrthrych a'r gwrthrychau cyfagos.
tiwtorial Dreambooth
Yn y tiwtorial hwn, byddwn yn dilyn y Llyfr nodiadau Google Collab, a mi a'th rodiaf trwyddo, yr hyn a wna i ti ei ddeall a'i ddefnyddio ar dy ben dy hun.
Sefydlu GPU a gosod llyfrgelloedd
Darganfod pa fathau GPU a VRAM sydd ar gael yw'r cam cyntaf. Mae angen gosod ychydig o ofynion a dibyniaethau hefyd. Yn syml, gwasgwch y botwm chwarae, yna arhoswch iddo orffen.
Creu cyfrif ar Huggingface a chynhyrchu tocyn
Y cam nesaf yw cofrestru ar gyfer cyfrif Huggingface. Pan fyddwch wedi gorffen, cliciwch gosodiadau yn y gornel dde uchaf. Byddwch yn cyrraedd y dudalen nesaf.
Crëwch y tocyn a'r enw yn ôl y gofyn o'r fan hon. Dylai'r tocyn gael ei gopïo a'i ludo i gydweithrediad Google yn y gell isod.
Gosod xformers
Yn y cam hwn, gallwch wasgu'r botwm chwarae i osod xformers trwy glicio ar yr amser rhedeg.
Cysylltwch â Drive
Nawr, mae'n rhaid i chi redeg y gell hon i gysylltu â Google Drive.
Rhowch yr anogwr
Yn y gell ganlynol, mae'n rhaid i chi nodi'r anogwr.
Wrthi'n uwchlwytho lluniau
Yn y cam hwn, mae'n rhaid i chi uwchlwytho'r lluniau yr oeddech am eu hyfforddi.
Hyfforddi model AI
Dyma'r cam pwysicaf, gan y byddwch yn defnyddio DreamBooth i hyfforddi model AI newydd yn seiliedig ar yr holl ffotograffau cyfeirio a gyflwynwyd gennych. Rhaid i chi gyfyngu eich sylw i ddau faes mewnbwn. “—instance prompt” yw’r paramedr cyntaf. Rhaid ichi roi enw tra gwahanol yma.
Y ddadl '–rhestr cysyniad' yw'r ail faes mewnbwn critigol. Rhaid ei ailenwi i gyd-fynd â'r un a ddefnyddir yn yr adran 'Newid yr anogwr'.
Cynhyrchu delweddau AI
Bydd y lluniau AI yn cael eu creu yn y cam hwn, lle gallwch fewnbynnu'r cyfarwyddiadau testun.
Cyfyngiadau Dreambooth
- Mae'r anogwr gorchymyn yn rhwystr i wneud iteriadau yn y pwnc gyda graddau uchel o fanylion. Gall DreamBooth newid cyd-destun y pwnc, ond os yw'r model yn dymuno newid y pwnc ei hun, mae problemau gyda'r ffrâm.
- Mater arall yw gorffitio'r llun allbwn i'r ddelwedd mewnbwn. Os nad oes digon o luniau wedi'u darparu, efallai na fydd y pwnc yn cael ei ystyried neu efallai y bydd yn cael ei gyfuno â chyd-destun y delweddau a gyflwynwyd. Pan ofynnir am gyd-destun ar gyfer cenhedlaeth od, mae'r un peth yn digwydd.
Casgliad
Er mwyn cynhyrchu allbynnau o fewnbwn testun unigol, mae angen miliynau o baramedrau a llyfrgelloedd ar gyfer mwyafrif y modelau testun-i-ddelwedd.
Mae DreamBooth yn symleiddio caffael a defnyddio cynnwys i ddefnyddwyr trwy ofyn am fewnbwn o dri i bum ffotograff pwnc yn unig ynghyd â chefndir testunol.
Gadael ymateb