Ordenagailu-ikusmenean eta grafikoan zeregin erabakigarria eta desiragarria da kalibre goreneko erretratu sormenezko filmak ekoiztea.
StyleGAN indartsuan oinarritutako irudi erretratuen tonifikaziorako hainbat eredu eraginkor proposatu badira ere, irudietara zuzendutako teknika hauek eragozpen argiak dituzte bideoekin erabiltzen direnean, hala nola fotograma-tamaina finkoa, aurpegia lerrokatzeko eskakizuna, aurpegiak ez diren xehetasunik eza. , eta denbora-inkoherentzia.
VToonify marko iraultzaile bat erabiltzen da bereizmen handiko erretratu-estiloaren transferentzia kontrolatu zailari aurre egiteko.
Artikulu honetan VToonify-ri buruzko azken azterketa aztertuko dugu, bere funtzionaltasuna, eragozpenak eta beste faktore batzuk barne.
Zer da Vtoonify?
VToonify esparruak bereizmen handiko erretratu bideo estilo transmisio pertsonalizagarria ahalbidetzen du.
VToonify-k StyleGAN-en bereizmen ertaineko eta altuko geruzak erabiltzen ditu kalitate handiko erretratu artistikoak sortzeko kodegailu batek berreskuratutako eskala anitzeko edukiaren ezaugarrietan oinarrituta, markoaren xehetasunak gordetzeko.
Ondorioz, guztiz konboluzionalaren arkitekturak tamaina aldakorreko filmetan lerrokatu gabeko aurpegiak hartzen ditu sarrera gisa, eta ondorioz, irteeran mugimendu errealistak dituzten aurpegi osoko eskualdeak sortzen dira.
Esparru hau bateragarria da StyleGAN-en oinarritutako egungo irudi-tonifikazio-ereduekin, bideo-tonifikaziora hedatzeko aukera emanez, eta ezaugarri erakargarriak jasotzen ditu, hala nola kolore erregulagarria eta intentsitatearen pertsonalizazioa.
helburua aztertzeko Toonify-n eta DualStyleGAN-en oinarritutako VToonify-ren bi instantziazio aurkezten ditu bilduman oinarritutako eta ereduetan oinarritutako erretratu estiloko bideo-estilo transferitzeko, hurrenez hurren.
Aurkikuntza esperimental zabalek erakusten dute proposatutako VToonify esparruak lehendik dauden planteamenduak gainditzen dituela kalitate handiko eta denbora-koherenteak diren erretratu artistikoko filmak egiteko estilo parametro aldakorrekin.
Ikertzaileek eskaintzen dute Google Colab koadernoa, eskuak zikintzeko.
Nola funtzionatzen du?
Erresoluzio handiko bideo-estiloen transferentzia erregulagarria lortzeko, VToonify-k irudien itzulpen-esparruaren abantailak StyleGAN-en oinarritutako markoarekin konbinatzen ditu.
Sarrera-tamaina desberdinak egokitzeko, irudien itzulpen-sistema guztiz konboluzio-sareak erabiltzen ditu. Hutsetik entrenatzeak, berriz, bereizmen handiko eta estilo kontrolatuaren transmisioa ezinezko egiten du.
Aurrez trebatutako StyleGAN eredua StyleGAN oinarritutako esparruan erabiltzen da bereizmen handiko eta estilo kontrolatua transferitzeko, nahiz eta irudiaren tamaina eta xehetasun-galera finkoetara mugatzen den.
StyleGAN marko hibridoan aldatzen da, tamaina finkoko sarrera-eginbidea eta bereizmen baxuko geruzak ezabatuz, eta, ondorioz, guztiz konboluziozko kodetzaile-sorgailu-arkitektura sortzen da irudien itzulpen-esparruaren antzekoa.
Markoaren xehetasunak mantentzeko, entrenatu kodetzaile bat sarrerako markoaren eskala anitzeko edukiaren ezaugarriak ateratzeko, sorgailuaren eduki-eskakizun gehigarri gisa. Vtoonify-k StyleGAN modeloaren estilo-kontrolaren malgutasuna heredatzen du sorgailura sartuz bere datuak eta eredua destilatzeko.
StyleGAN eta Proposatutako Vtoonify-ren mugak
Erretratu artistikoak ohikoak dira gure eguneroko bizitzan eta baita sormen negozioetan ere, hala nola artea, social media avatarrak, filmak, entretenimenduko publizitatea, etab.
Garapenarekin ikaskuntza sakona teknologia, orain posible da kalitate handiko erretratu artistikoak sortzea benetako aurpegiko argazkietatik abiatuta, erretratu estilo transferentzia automatizatua erabiliz.
Irudietan oinarritutako estilo transferitzeko modu arrakastatsu asko daude, eta horietako asko erabiltzaile hasiberrientzat erraz eskura daitezke aplikazio mugikorren bidez. Bideo-materiala gure sare sozialetako jarioen ardatz bihurtu da azken urteotan.
Sare sozialen eta film iragankorren gorakadak bideo-edizio berritzaileen eskaria areagotu du, hala nola, erretratu bideo estiloaren transferentzia, bideo arrakastatsu eta interesgarriak sortzeko.
Lehendik dauden irudietara zuzendutako teknikek desabantaila handiak dituzte filmetan aplikatzen direnean, eta haien erabilgarritasuna mugatzen dute erretratuen bideo-estilizazio automatizatuan.
StyleGAN erretratu-estiloen transferentzia-eredu bat garatzeko ohiko ardatza da, kalitate handiko aurpegiak sortzeko ahalmenagatik, estiloaren kudeaketa doigarriarekin.
StyleGAN-en oinarritutako sistema batek (irudi-tonifikazio gisa ere ezagutzen dena) benetako aurpegi bat kodetzen du StyleGAN ezkutuko espazioan eta, ondoren, sortzen den estilo-kodea aplikatzen du erretratu artistikoko datu-multzoan sintonizatutako beste StyleGAN bati, bertsio estilizatu bat sortzeko.
StyleGANek aurpegi lerrokatuekin eta tamaina finkoarekin sortzen ditu irudiak, eta horrek ez ditu aurpegi dinamikoen alde egiten mundu errealeko metrajeetan. Bideoan aurpegiak mozteak eta lerrokatzeak batzuetan aurpegi partziala eta keinu deserosoak eragiten ditu. Ikertzaileek arazo honi StyleGANen "laborantza finkoaren murrizketa" deitzen diote.
Lerrokatu gabeko aurpegietarako, StyleGAN3 proposatu da; hala ere, zehaztutako irudiaren tamaina soilik onartzen du.
Gainera, azken ikerketa batek aurkitu du lerrokatu gabeko aurpegiak kodetzea erronka handiagoa dela lerrokatuta dauden aurpegiak baino. Aurpegien kodetze okerra kaltegarria da erretratu estiloa transferitzeko, eta, ondorioz, arazoak sortzen dira, hala nola, identitatea aldatzea eta berreraikitako eta estiloko markoetan osagaiak falta direla.
Esan bezala, bideo-estilo erretratua transferitzeko teknika eraginkor batek arazo hauek kudeatu behar ditu:
- Mugimendu errealistak gordetzeko, ikuspegiak lerrokatu gabeko aurpegiei eta bideo-tamaina ezberdinei aurre egiteko gai izan behar du. Bideo-tamaina handi batek edo ikuspegi angelu zabal batek informazio gehiago har dezake aurpegia markotik atera ez den bitartean.
- Gaur egun erabili ohi diren HD tramankuluekin lehiatzeko, bereizmen handiko bideoa beharrezkoa da.
- Estilo-kontrol malgua eskaini behar zaie erabiltzaileei euren aukera aldatzeko eta hautatzeko, erabiltzaileen interakzio-sistema errealista bat garatzerakoan.
Horretarako, ikertzaileek VToonify iradokitzen dute, bideo-tonifikaziorako esparru hibrido berri bat. Laborantza finkoaren muga gainditzeko, ikertzaileek lehendabizi itzulpen-baliokidetasuna aztertzen dute StyleGAN-en.
VToonify-k StyleGANen oinarritutako arkitekturaren eta irudien itzulpen-esparruaren abantailak konbinatzen ditu bereizmen handiko erretratu-estiloaren transferentzia erregulagarria lortzeko.
Honako hauek dira ekarpen nagusiak:
- Ikertzaileek StyleGANen laborantza finkoaren muga ikertzen dute eta itzulpen-baliokidetasunean oinarritutako irtenbide bat proposatzen dute.
- Ikertzaileek VToonify marko guztiz konboluzional bakarra aurkezten dute bereizmen handiko erretratu estiloko bideo-estilo transferitzeko, lerrokatu gabeko aurpegiak eta bideo-tamaina desberdinak onartzen dituena.
- Ikertzaileek VToonify Toonify eta DualStyleGAN-en bizkarrezurra eraikitzen dute eta bizkarrezurra trinkotu egiten dute datuen eta ereduen arabera, bilduman oinarritutako eta ereduetan oinarritutako erretratu-bideo estiloen transferentzia ahalbidetzeko.
Vtoonify puntako beste eredu batzuekin alderatuz
Toonify
StyleGAN erabiliz lerrokatutako aurpegietan bilduman oinarritutako estilo transferentziarako oinarri gisa balio du. Estilo-kodeak berreskuratzeko, ikertzaileek aurpegiak lerrokatu eta 256256 argazki moztu behar dituzte PSPrako. Toonify 1024*1024 estilo-kodeekin emaitza estilizatu bat sortzeko erabiltzen da.
Azkenik, bideoko emaitza jatorrizko kokapenera berriro lerrokatzen dute. Estilizatu gabeko eremua beltzean ezarri da.
DualStyleGAN
StyleGANen oinarritutako ereduetan oinarritutako estilo transferentziarako bizkarrezurra da. Toonifyren datuak prozesatzeko aurreko eta osteko teknika berberak erabiltzen dituzte.
Pix2pixHD
Iruditik irudirako itzulpen eredu bat da, bereizmen handiko ediziorako aurrez prestatutako ereduak kondentsatzeko erabili ohi dena. Parekatutako datuak erabiliz entrenatzen da.
Ikertzaileek pix2pixHD erabiltzen dute bere instantzia-mapa gehigarri gisa, ateratako analisi-mapa erabiltzen baitu.
Lehen Aginduaren mozioa
FOM irudi-animazio eredu tipikoa da. 256256 argazkitan trebatu zen eta gaizki funtzionatzen du beste irudi-tamainekin. Ondorioz, ikertzaileek lehenik bideo-markoak 256*256ra eskalatzen dituzte FOM animaziorako eta, ondoren, emaitzak jatorrizko tamainara aldatu.
Bidezko konparazio baterako, FOM-ek bere ikuspegiaren lehen marko estilizatua erabiltzen du erreferentziazko estilo-irudi gisa.
DaGAN
3D aurpegiko animazio eredu bat da. FOM-en datuak prestatzeko eta prozesatzeko metodo berberak erabiltzen dituzte.
Abantailak
- Arteetan, sare sozialetako avataretan, filmetan, entretenimenduko publizitatean eta abarretan erabil daiteke.
- Vtoonify metabertsoan ere erabil daiteke.
Mugak
- Metodologia honek StyleGANen oinarritutako ardatzetatik datuak eta eredua ateratzen ditu, datuen eta ereduaren alborapena eraginez.
- Artefaktuak aurpegi estilizatuaren eskualdearen eta gainerako atalen arteko tamaina desberdintasunak eragiten ditu gehienbat.
- Estrategia honek arrakasta gutxiago du aurpegiko eskualdeko gauzei aurre egiteko.
Ondorioa
Azkenik, VToonify estiloak kontrolatutako bereizmen handiko bideo-tonifikaziorako esparru bat da.
Esparru honek errendimendu handia lortzen du bideoak maneiatzen eta egitura-estiloaren, kolore-estiloaren eta estilo-mailaren gaineko kontrol zabala ahalbidetzen du, StyleGAN-en oinarritutako irudi-tonifikazio-ereduak kondentsatuz. datu sintetikoak eta sare-egiturak.
Utzi erantzun bat