Estas decida kaj dezirinda tasko en komputila vizio kaj grafiko produkti kreivajn portretfilmojn de la plej alta kalibro.
Kvankam pluraj efikaj modeloj por portretbildtonigo bazita sur la potenca StyleGAN estis proponitaj, tiuj bild-orientitaj teknikoj havas klarajn malavantaĝojn kiam uzite kun vidbendoj, kiel ekzemple la fiksa kadrograndeco, la postulo por vizaĝparaleligo, la foresto de ne-vizaĝaj detaloj. , kaj tempa malkongruo.
Revolucia kadro VToonify estas uzata por trakti la malfacilan kontrolitan alt-rezolucian portretan videostilan translokigon.
Ni ekzamenos la plej freŝan studon pri VToonify en ĉi tiu artikolo, inkluzive de ĝia funkcieco, malavantaĝoj kaj aliaj faktoroj.
Kio estas Vtoonify?
VToonify-kadro permesas agordeblan alt-rezolucian portretan videostilan dissendon.
VToonify uzas la mez- kaj alt-rezoluciajn tavolojn de StyleGAN por krei altkvalitajn artajn portretojn bazitajn sur multskalaj enhavaj trajtoj prenitaj de kodilo por konservi kadrajn detalojn.
La rezulta tute konvolucia arkitekturo prenas ne-vicigitajn vizaĝojn en variablograndaj filmoj kiel enigaĵon, rezultigante tutvizaĝajn regionojn kun realismaj movadoj en la produktaĵo.
Ĉi tiu kadro estas kongrua kun nunaj StyleGAN-bazitaj bildaj toonigo-modeloj, permesante al ili esti etenditaj al videotonigo, kaj heredas allogajn karakterizaĵojn kiel alĝustigebla koloro kaj intenseco-personigo.
ĉi studo enkondukas du instancigojn de VToonify bazitajn sur Toonify kaj DualStyleGAN por kolekto-bazita kaj ekzempla-bazita portreta videostilo translokigo, respektive.
Ampleksaj eksperimentaj rezultoj montras ke la proponita VToonify-kadro superas ekzistantajn alirojn en farado de altkvalitaj, temp-koheraj artaj portretfilmoj kun variaj stilparametroj.
Esploristoj provizas la Kajero de Google Colab, por ke vi povu malpurigi viajn manojn sur ĝi.
Kiel ĝi funkcias?
Por realigi alĝustigeblan alt-rezolucian portretan videostilan translokigon, VToonify kombinas la avantaĝojn de la bildtraduka kadro kun la StyleGAN-bazita kadro.
Por alĝustigi diversajn eniggrandecojn, la bildtraduka sistemo utiligas plene konvoluciajn retojn. Trejnado de nulo, aliflanke, malebligas alt-rezolucian kaj kontrolitan stilan transdonon.
La antaŭtrejnita StyleGAN-modelo estas utiligita en la StyleGAN-bazita kadro por alt-rezolucia kaj kontrolita stiltranslokigo, kvankam ĝi estas limigita al fiksa bildgrandeco kaj detalperdoj.
StyleGAN estas modifita en la hibrida kadro forigante ĝian fiks-grandan enirtrajton kaj malalt-rezoluciajn tavolojn, rezultigante plene konvolucian kodigilo-generatoran arkitekturon similan al tiu de la bildtraduka kadro.
Por konservi kadrajn detalojn, trejnu kodilon por ĉerpi plurskalajn enhavajn karakterizaĵojn de la eniga kadro kiel kroma enhavpostulo al la generatoro. Vtoonify heredas la stilkontrolflekseblecon de la StyleGAN-modelo metante ĝin en la generatoron por distili kaj ĝiajn datenojn kaj modelon.
Limigoj de StyleGAN & Proponita Vtoonify
Artaj portretoj estas oftaj en niaj ĉiutagaj vivoj same kiel en kreaj entreprenoj kiel arto, sociaj rimedoj avataroj, filmoj, distra reklamado, ktp.
Kun la disvolviĝo de profunda lernado teknologio, nun eblas krei altkvalitajn artajn portretojn el realaj vizaĝfotoj uzante aŭtomatan portretstilan translokigon.
Estas diversaj sukcesaj manieroj kreitaj por bild-bazita stila translokigo, multaj el kiuj estas facile alireblaj por komencantoj en formo de moveblaj aplikoj. Videomaterialo rapide fariĝis ĉefa ĉefo de niaj sociaj amaskomunikiloj dum la lastaj pluraj jaroj.
La pliiĝo de sociaj amaskomunikiloj kaj efemeraj filmoj pliigis la postulon je noviga videoredaktado, kiel ekzemple portreta videostila translokigo, por generi sukcesajn kaj interesajn filmetojn.
Ekzistantaj bild-orientitaj teknikoj havas signifajn malavantaĝojn kiam aplikite al filmoj, limigante sian utilecon en aŭtomatigita portreta videostiligo.
StyleGAN estas ofta spino por evoluigi portretan bildstilan transigan modelon pro sia kapablo krei altkvalitajn vizaĝojn kun alĝustigebla stiladministrado.
StyleGAN-bazita sistemo (ankaŭ konata kiel bildtonigo) ĉifras realan vizaĝon en la latentan spacon StyleGAN kaj tiam aplikas la rezultan stilkodon al alia StyleGAN fajnagordita sur la arta portreta datumaro por krei stiligitan version.
StyleGAN kreas bildojn kun vicigitaj vizaĝoj kaj je fiksa grandeco, kiu ne favoras dinamikajn vizaĝojn en realaj bildoj. Vizaĝtondado kaj vicigo en la video foje rezultigas partan vizaĝon kaj mallertajn gestojn. Esploristoj nomas ĉi tiun aferon la "limigo de fiksa rikolto" de StyleGAN.
Por nevicigitaj vizaĝoj, StyleGAN3 estis proponita; tamen ĝi nur subtenas fiksitan bildograndecon.
Krome, lastatempa studo malkovris ke kodi nevicigitajn vizaĝojn estas pli malfacila ol vicigitaj vizaĝoj. Malĝusta vizaĝkodado estas damaĝa al portretstila translokigo, rezultigante problemojn kiel ekzemple identecŝanĝo kaj mankantaj komponentoj en la rekonstruitaj kaj stilitaj kadroj.
Kiel diskutite, efika tekniko por portreta videostila translokigo devas trakti la jenajn problemojn:
- Por konservi realismajn movojn, la aliro devas povi trakti nevicajn vizaĝojn kaj diversajn videograndojn. Granda videograndeco, aŭ larĝa angulo de vido, povas kapti pli da informoj dum malhelpas la vizaĝon moviĝi el kadro.
- Por konkuri kun la hodiaŭaj ofte uzataj HD-aparatoj, necesas alt-rezolucia video.
- Fleksebla stilkontrolo devus esti ofertita por uzantoj por ŝanĝi kaj elekti sian elekton dum evoluigado de realisman uzantan interagadsistemon.
Tiucele esploristoj sugestas VToonify, novan hibridan kadron por videotonigo. Por venki la fiksan rikoltlimon, esploristoj unue studas tradukan ekvivariacon en StyleGAN.
VToonify kombinas la avantaĝojn de la arkitekturo bazita sur StyleGAN kaj la bildtraduka kadro por atingi alĝustigeblan alt-rezolucian portretan videostilan translokigon.
La jenaj estas la ĉefaj kontribuoj:
- Esploristoj esploras la fiksrikoltan limon de StyleGAN kaj proponas solvon bazitan sur tradukekvivarianco.
- Esploristoj prezentas unikan plene konvolucian kadron VToonify por kontrolita alt-rezolucia portreta videostila translokigo, kiu subtenas nevicigitajn vizaĝojn kaj malsamajn videograndojn.
- Esploristoj konstruas VToonify sur la spinoj de Toonify kaj DualStyleGAN kaj densigas la spinojn laŭ kaj datenoj kaj modelo por ebligi kolekto-bazitan kaj ekzempler-bazitan portretan videostilan translokigon.
Komparante Vtoonify kun aliaj pintnivelaj modeloj
Toonify
Ĝi funkcias kiel la fundamento por kolekto-bazita stiltranslokigo sur vicigitaj vizaĝoj uzante StyleGAN. Por preni la stilkodojn, esploristoj devas vicigi vizaĝojn kaj tondi 256256 fotojn por PSP. Toonify estas uzata por generi stiligitan rezulton kun 1024*1024 stilkodoj.
Fine, ili realigas la rezulton en la video al ĝia originala loko. La ne-stiligita areo estis agordita al nigra.
DualStyleGAN
Ĝi estas spino por model-bazita stiltranslokigo bazita sur StyleGAN. Ili uzas la samajn datumajn antaŭ- kaj post-pretigajn teknikojn kiel Toonify.
Pix2pixHD
Ĝi estas bild-al-bilda tradukmodelo kiu estas kutime uzata por densigi antaŭtrejnitajn modelojn por alt-rezolucia redaktado. Ĝi estas trejnita uzante parigitajn datumojn.
Esploristoj utiligas pix2pixHD kiel ĝiajn kromajn map-enigaĵojn ĉar ĝi uzas ĉerpitan analizan mapon.
Unua Orda Moviĝo
FOM estas tipa bilda animacia modelo. Ĝi estis trejnita sur 256256 bildoj kaj agas malbone kun aliaj bildaj grandecoj. Sekve, esploristoj unue skalas la videokadrojn al 256*256 por FOM al animacio kaj poste regrandigi la rezultojn al sia originala grandeco.
Por justa komparo, FOM utiligas la unuan stiligitan kadron de sia aliro kiel sian referencan stilbildon.
DaGAN
Ĝi estas 3D vizaĝa animacia modelo. Ili uzas la samajn datumpreparajn kaj postpretigajn metodojn kiel FOM.
Avantaĝoj
- Ĝi povas esti utiligita en la artoj, sociaj amaskomunikiloj avataroj, filmoj, distra reklamado, ktp.
- Vtoonify ankaŭ povas esti utiligita en la metaverso.
Limigoj
- Tiu metodaro ĉerpas kaj la datenojn kaj la modelon de la StyleGAN-bazitaj spinoj, rezultigante datenojn kaj modelbiason.
- La artefaktoj estas kaŭzitaj plejparte de grandecdiferencoj inter la stiligita vizaĝregiono kaj la aliaj sekcioj.
- Ĉi tiu strategio estas malpli sukcesa kiam traktas aferojn en la vizaĝregiono.
konkludo
Fine, VToonify estas kadro por stil-kontrolita alt-rezolucia videotonigo.
Ĉi tiu kadro atingas bonegan agadon en pritraktado de videoj kaj ebligas larĝan kontrolon super la struktura stilo, kolorstilo kaj stilgrado per kondensado de bildaj tonigaj modeloj bazitaj en StyleGAN laŭ ambaŭ iliaj. sintezaj datumoj kaj retaj strukturoj.
Lasi Respondon