Ni kazi muhimu na inayohitajika katika maono ya kompyuta na michoro kutengeneza filamu za picha za ubunifu za hali ya juu zaidi.
Ijapokuwa miundo kadhaa ya ufanisi ya uwekaji toni ya picha ya picha kulingana na StyleGAN yenye nguvu imependekezwa, mbinu hizi zinazolenga picha zina hitilafu wazi zinapotumiwa na video, kama vile ukubwa wa fremu uliowekwa, hitaji la kupanga uso, kutokuwepo kwa maelezo yasiyo ya usoni. , na kutofautiana kwa muda.
Mfumo wa kimapinduzi wa VToonify hutumika kushughulikia uhamishaji wa mtindo wa picha wima unaodhibitiwa wa ubora wa juu.
Tutachunguza utafiti wa hivi majuzi zaidi kuhusu VToonify katika makala haya, ikijumuisha utendakazi wake, vikwazo na mambo mengine.
Vtoonify ni nini?
Mfumo wa VToonify huruhusu uwasilishaji wa mtindo wa video wa mwonekano wa juu unaoweza kubinafsishwa.
VToonify hutumia safu za ubora wa kati na wa juu za StyleGAN ili kuunda picha za wima za kisanii za ubora wa juu kulingana na sifa za maudhui ya mizani mbalimbali zilizorejeshwa na programu ya kusimba ili kuhifadhi maelezo ya fremu.
Usanifu unaosababisha mabadiliko kamili huchukua nyuso zisizo sawa katika filamu za ukubwa tofauti kama ingizo, na kusababisha maeneo yenye uso mzima yenye miondoko ya kweli katika matokeo.
Mfumo huu unaoana na miundo ya sasa ya ubainishaji wa picha kulingana na StyleGAN, inayoziruhusu kuongezwa hadi kwenye uangazaji wa video, na hurithi sifa za kuvutia kama vile rangi zinazoweza kubadilishwa na uwekaji mapendeleo ya ukubwa.
hii kujifunza inatanguliza miiko miwili ya VToonify kulingana na Toonify na DualStyleGAN kwa uhamishaji wa mtindo wa video wa picha wima unaotegemea mkusanyiko na kielelezo, mtawalia.
Matokeo ya majaribio ya kina yanaonyesha kuwa mfumo wa VToonify unaopendekezwa unafanya kazi vyema zaidi kuliko mbinu zilizopo katika kutengeneza filamu za picha za kisanii za ubora wa juu, zinazoshikamana kwa muda na vigezo vya mtindo tofauti.
Watafiti hutoa Daftari ya Google Colab, ili uweze kuchafua mikono yako juu yake.
Jinsi gani kazi?
Ili kukamilisha uhamishaji wa mtindo wa picha wa picha wa ubora wa juu unaoweza kubadilishwa, VToonify inachanganya manufaa ya mfumo wa tafsiri ya picha na mfumo unaotegemea StyleGAN.
Ili kushughulikia ukubwa tofauti wa ingizo, mfumo wa tafsiri ya picha unatumia mitandao ya kubadilishana kikamilifu. Mafunzo kutoka mwanzo, kwa upande mwingine, hufanya upitishaji wa mtindo wa juu na udhibiti usiwezekane.
Muundo wa StyleGAN uliofunzwa awali unatumika katika mfumo unaotegemea StyleGAN kwa uhamishaji wa mtindo wa ubora wa juu na unaodhibitiwa, ingawa ni mdogo kwa saizi isiyobadilika ya picha na hasara za maelezo.
StyleGAN inarekebishwa katika mfumo wa mseto kwa kufuta kipengele chake cha ingizo cha ukubwa usiobadilika na tabaka zenye msongo wa chini, na hivyo kusababisha usanifu wa kisimbaji cha kubadilika kikamilifu sawa na ule wa mfumo wa tafsiri ya picha.
Ili kudumisha maelezo ya fremu, fundisha msimbaji kutoa sifa za maudhui ya mizani mbalimbali ya fremu ya uingizaji kama hitaji la ziada la maudhui kwa jenereta. Vtoonify hurithi ubadilikaji wa udhibiti wa mtindo wa mtindo wa StyleGAN kwa kuiweka kwenye jenereta ili kusambaza data na muundo wake.
Mapungufu ya StyleGAN & Proposed Vtoonify
Picha za kisanii ni za kawaida katika maisha yetu ya kila siku na pia katika biashara za ubunifu kama vile sanaa, kijamii vyombo vya habari avatars, sinema, matangazo ya burudani, na kadhalika.
Na maendeleo ya kujifunza kwa kina teknolojia, sasa inawezekana kuunda picha za picha za kisanii za ubora wa juu kutoka kwa picha za uso wa maisha halisi kwa kutumia uhamishaji wa mtindo wa picha otomatiki.
Kuna anuwai ya njia zilizofanikiwa iliyoundwa kwa uhamishaji wa mtindo kulingana na picha, nyingi ambazo zinapatikana kwa urahisi kwa watumiaji wanaoanza katika mfumo wa programu za rununu. Nyenzo za video zimekuwa mhimili mkuu wa milisho yetu ya mitandao ya kijamii kwa miaka kadhaa iliyopita.
Kuongezeka kwa mitandao ya kijamii na filamu za muda mfupi kumeongeza hitaji la uhariri wa video bunifu, kama vile uhamishaji wa mtindo wa video wima, ili kutoa video zenye mafanikio na zinazovutia.
Mbinu zilizopo za kuelekeza picha zina hasara kubwa zinapotumika kwa filamu, na hivyo kupunguza manufaa yake katika uwekaji mtindo wa video wa picha wima otomatiki.
StyleGAN ni uti wa mgongo wa kawaida wa kutengeneza mtindo wa uhamishaji wa picha wima kwa sababu ya uwezo wake wa kuunda nyuso za ubora wa juu na usimamizi wa mtindo unaoweza kurekebishwa.
Mfumo unaotegemea StyleGAN (unaojulikana pia kama ujumuishaji wa picha) husimba uso halisi kwenye nafasi fiche ya StyleGAN na kisha kutumia msimbo wa mtindo unaotolewa kwa StyleGAN nyingine iliyoboreshwa kwenye mkusanyiko wa data wa picha ya kisanii ili kuunda toleo la mtindo.
StyleGAN huunda picha zenye nyuso zilizopangiliwa na kwa saizi isiyobadilika, ambayo haipendelei nyuso zinazobadilika katika picha za ulimwengu halisi. Kupunguza uso na kupanga kwenye video wakati mwingine husababisha uso fulani na ishara zisizo za kawaida. Watafiti huita suala hili 'kizuizi cha mazao ya kudumu' cha StyleGAN.
Kwa nyuso zisizo sawa, StyleGAN3 imependekezwa; hata hivyo, inasaidia tu saizi ya picha iliyowekwa.
Zaidi ya hayo, uchunguzi wa hivi majuzi uligundua kuwa usimbaji wa nyuso zisizo sawa ni changamoto zaidi kuliko nyuso zilizopangwa. Usimbaji usio sahihi wa uso ni hatari kwa uhamishaji wa mtindo wa picha wima, na hivyo kusababisha masuala kama vile kubadilisha utambulisho na kukosa vipengele katika fremu zilizoundwa upya na zenye mtindo.
Kama ilivyojadiliwa, mbinu bora ya uhamishaji wa mtindo wa video wima lazima ishughulikie masuala yafuatayo:
- Ili kuhifadhi miondoko ya kweli, mbinu lazima iweze kukabiliana na nyuso zisizosawazishwa na saizi tofauti za video. Ukubwa mkubwa wa video, au mwonekano mpana, unaweza kunasa maelezo zaidi huku ukizuia uso kutoka nje ya fremu.
- Ili kushindana na vifaa vya kisasa vya HD vinavyotumiwa sana, video ya ubora wa juu inahitajika.
- Udhibiti wa mtindo unaonyumbulika unapaswa kutolewa kwa watumiaji kubadilisha na kuchagua chaguo lao wakati wa kuunda mfumo halisi wa mwingiliano wa watumiaji.
Kwa kusudi hilo, watafiti wanapendekeza VToonify, mfumo mpya wa mseto wa uboreshaji wa video. Ili kuondokana na kizuizi cha mazao, watafiti walisoma kwanza usawa wa tafsiri katika StyleGAN.
VToonify inachanganya manufaa ya usanifu unaotegemea StyleGAN na mfumo wa tafsiri ya picha ili kufikia uhamishaji wa mtindo wa video wa picha wima unaoweza kubadilishwa.
Ifuatayo ni michango mikuu:
- Watafiti huchunguza kizuizi cha mazao ya kudumu cha StyleGAN na kupendekeza suluhisho kulingana na usawa wa tafsiri.
- Watafiti wanawasilisha mfumo wa kipekee wa kubadilisha kabisa wa VToonify kwa uhamishaji wa mtindo wa picha wa picha wa ubora wa juu unaodhibitiwa ambao unaauni nyuso zisizopangwa na saizi tofauti za video.
- Watafiti huunda VToonify kwenye uti wa mgongo wa Toonify na DualStyleGAN na kufupisha uti wa mgongo kulingana na data na modeli ili kuwezesha uhamishaji wa mtindo wa video wa picha kulingana na mkusanyiko na mfano.
Kulinganisha Vtoonify na miundo mingine ya hali ya juu
Thibitisha
Hutumika kama msingi wa uhamishaji wa mtindo unaotegemea mkusanyiko kwenye nyuso zilizopangiliwa kwa kutumia StyleGAN. Ili kupata misimbo ya mitindo, watafiti lazima wapangie nyuso na wapunguze picha 256256 za PSP. Toonify hutumiwa kutoa matokeo yaliyowekwa mtindo na misimbo ya mtindo 1024*1024.
Hatimaye, wanapanga upya matokeo katika video na eneo lake asili. Eneo lisilo na mtindo limewekwa kuwa jeusi.
DualStyleGAN
Ni uti wa mgongo wa uhamishaji wa mtindo kulingana na mfano kulingana na StyleGAN. Wanatumia mbinu sawa za kabla na baada ya kuchakata data kama Toonify.
Pix2pixHD
Ni muundo wa utafsiri wa picha-kwa-picha ambao hutumiwa kwa kawaida kufupisha miundo iliyofunzwa awali kwa uhariri wa ubora wa juu. Inafunzwa kwa kutumia data iliyooanishwa.
Watafiti hutumia pix2pixHD kama viingizi vyake vya ziada vya ramani kwani hutumia ramani ya uchanganuzi iliyotolewa.
Mwendo wa Agizo la Kwanza
FOM ni mfano wa kawaida wa uhuishaji wa picha. Ilifunzwa kwenye picha 256256 na haifanyi kazi vizuri na saizi zingine za picha. Kwa hivyo, watafiti hupandisha kwanza fremu za video hadi 256*256 kwa FOM hadi uhuishaji na kisha kurekebisha ukubwa wa matokeo hadi saizi yao halisi.
Kwa ulinganisho wa haki, FOM hutumia fremu ya kwanza yenye mtindo wa mbinu yake kama taswira ya mtindo wa marejeleo.
DaGAN
Ni muundo wa uhuishaji wa uso wa 3D. Wanatumia utayarishaji wa data sawa na mbinu za usindikaji kama FOM.
faida
- Inaweza kuajiriwa katika sanaa, arifa za mitandao ya kijamii, filamu, utangazaji wa burudani, na kadhalika.
- Vtoonify pia inaweza kutumika katika metaverse.
Mapungufu
- Mbinu hii hutoa data na modeli kutoka kwa uti wa mgongo wa StyleGAN, na kusababisha data na upendeleo wa mfano.
- Vizalia vya programu husababishwa zaidi na tofauti za ukubwa kati ya eneo la nyuso zilizowekwa mitindo na sehemu zingine.
- Mkakati huu haufanikiwi sana wakati wa kushughulika na mambo katika eneo la uso.
Hitimisho
Hatimaye, VToonify ni mfumo wa uboreshaji wa video wa ubora wa juu unaodhibitiwa na mtindo.
Mfumo huu unafanikisha utendakazi bora katika kushughulikia video na kuwezesha udhibiti mpana juu ya mtindo wa muundo, mtindo wa rangi, na digrii ya mtindo kwa kufupisha miundo ya ujumuishaji wa picha inayotegemea StyleGAN kulingana na zote mbili. data ya syntetisk na miundo ya mtandao.
Acha Reply