Arvutinägemise ja graafika valdkonnas on ülioluline ja soovitav ülesanne luua kõrgeima kaliibriga loomingulisi portreefilme.
Kuigi on välja pakutud mitmeid tõhusaid mudeleid portreekujutise tooniseerimiseks, mis põhinevad tugeval StyleGANil, on neil pildile orienteeritud tehnikatel videos kasutamisel selged puudused, nagu näiteks fikseeritud kaadri suurus, näo joondamise nõue, näoga mitteseotud detailide puudumine. ja ajaline ebakõla.
Revolutsioonilist VToonify raamistikku kasutatakse raskesti juhitava kõrge eraldusvõimega portreevideo stiili ülekandmiseks.
Uurime selles artiklis viimast VToonify uuringut, sealhulgas selle funktsionaalsust, puudusi ja muid tegureid.
Mis on Vtoonify?
VToonify raamistik võimaldab kohandatavat kõrge eraldusvõimega portreevideo stiilis edastamist.
VToonify kasutab StyleGANi keskmise ja kõrge eraldusvõimega kihte, et luua kõrgekvaliteedilisi kunstilisi portreesid, mis põhinevad kodeerija poolt hangitud mitmemõõtmelistel sisuomadustel, et säilitada kaadri üksikasjad.
Saadud täielikult konvolutsiooniline arhitektuur võtab sisendiks muutuva suurusega filmide joondamata näod, mille tulemuseks on terve näo piirkonnad realistlike liikumistega väljundis.
See raamistik ühildub praeguste StyleGAN-põhiste kujutise tooniseerimismudelitega, võimaldades neid laiendada video tooniseerimisele ja pärib atraktiivsed omadused, nagu reguleeritav värvi ja intensiivsuse kohandamine.
see õppima tutvustab kahte VToonify eksemplari, mis põhinevad Toonifyl ja DualStyleGANil, vastavalt kollektsioonipõhiseks ja näidispõhiseks portreevideo stiilis ülekandmiseks.
Ulatuslikud katsetulemused näitavad, et pakutud VToonify raamistik ületab olemasolevad lähenemisviisid kvaliteetsete, ajaliselt sidusate kunstiliste portreefilmide tegemisel muutuvate stiiliparameetritega.
Teadlased pakuvad Google Colabi märkmik, nii et saate oma käed määrida.
Kuidas see toimib?
Reguleeritava kõrge eraldusvõimega portreevideo stiili ülekandmiseks ühendab VToonify pilditõlkeraamistiku eelised StyleGAN-põhise raamistikuga.
Erinevate sisendsuuruste kohandamiseks kasutab piltide tõlkimise süsteem täielikult konvolutsioonivõrke. Seevastu nullist treenimine muudab kõrge eraldusvõimega ja kontrollitud stiilis edastamise võimatuks.
Eelkoolitatud StyleGAN-mudelit kasutatakse StyleGAN-põhises raamistikus kõrge eraldusvõimega ja kontrollitud stiiliedastuseks, kuigi see piirdub fikseeritud pildi suuruse ja detailide kadudega.
StyleGAN-i muudetakse hübriidraamistikus, kustutades selle fikseeritud suurusega sisendfunktsiooni ja madala eraldusvõimega kihid, mille tulemuseks on täielikult konvolutsiooniline kodeerija-generaatori arhitektuur, mis sarnaneb kujutiste tõlkimise raamistiku omaga.
Kaadri üksikasjade säilitamiseks õpetage kodeerijat generaatorile täiendava sisunõudena eraldama sisendkaadri mitmemõõtmelisi sisuomadusi. Vtoonify pärib StyleGANi mudeli stiilijuhtimise paindlikkuse, pannes selle generaatorisse, et destilleerida nii selle andmeid kui ka mudelit.
StyleGANi ja pakutud Vtoonify piirangud
Kunstilised portreed on levinud nii meie igapäevaelus kui ka loomingulistes ettevõtetes, nagu kunst, Sotsiaalse meedia avatarid, filmid, meelelahutusreklaamid ja nii edasi.
Arendades sügav õpe tehnoloogia abil on nüüd võimalik luua kvaliteetseid kunstilisi portreesid tõsielus olevatest näofotodest, kasutades automaatset portreelaadi edastust.
Pildipõhiseks stiiliedastuseks on loodud mitmeid edukaid viise, millest paljud on algajatele kasutajatele mobiilirakenduste kujul hõlpsasti ligipääsetavad. Videomaterjalist on viimastel aastatel kiiresti saanud meie sotsiaalmeedia kanalite tugisammas.
Sotsiaalmeedia ja lühiajaliste filmide kasv on suurendanud nõudlust uuenduslike videotöötluste, näiteks portreevideo stiilide ülekandmise järele, et luua edukaid ja huvitavaid videoid.
Olemasolevatel pildile orienteeritud tehnikatel on filmide puhul olulisi puudusi, mis piiravad nende kasulikkust automatiseeritud portreevideo stiliseerimisel.
StyleGAN on portreepildi stiili edastusmudeli väljatöötamise tavaline tugisammas tänu selle võimele luua reguleeritava stiilihaldusega kvaliteetseid nägusid.
StyleGANil põhinev süsteem (tuntud ka kui pildi tooniseerimine) kodeerib tegeliku näo StyleGANi varjatud ruumi ja seejärel rakendab saadud stiilikoodi teisele StyleGANile, mis on kunstilise portree andmestiku peenhäälestatud, et luua stiliseeritud versioon.
StyleGAN loob joondatud nägudega ja fikseeritud suurusega pilte, mis ei soosi dünaamilisi nägusid reaalses filmis. Nägude kärpimine ja joondamine videos põhjustavad mõnikord osalist nägu ja ebamugavaid žeste. Teadlased nimetavad seda probleemi StyleGANi "fikseeritud saagipiiranguks".
Joondamata nägude jaoks on pakutud StyleGAN3; aga see toetab ainult määratud pildi suurust.
Lisaks avastas hiljutine uuring, et joondamata nägude kodeerimine on keerulisem kui joondatud nägude kodeerimine. Vale näokodeering kahjustab portree stiili ülekandmist, mille tulemuseks on probleeme, nagu identiteedi muutumine ja osade puudumine rekonstrueeritud ja kujundatud kaadrites.
Nagu arutatud, peab tõhus portreevideo stiilis edastamise tehnika lahendama järgmised probleemid.
- Realistlike liikumiste säilitamiseks peab lähenemine suutma toime tulla joondamata nägude ja erineva suurusega videotega. Suur video suurus või lai vaatenurk võimaldab jäädvustada rohkem teavet, hoides samal ajal nägu kaadrist välja.
- Tänapäeva sageli kasutatavate HD-vidinatega konkureerimiseks on vaja kõrge eraldusvõimega videot.
- Kasutajatele tuleks pakkuda paindlikku stiilijuhtimist, et nad saaksid realistliku kasutaja interaktsioonisüsteemi väljatöötamisel oma valikut muuta ja valida.
Sel eesmärgil soovitavad teadlased VToonify, uudset hübriidraamistikku video tooniseerimiseks. Fikseeritud põllukultuuripiirangu ületamiseks uurivad teadlased kõigepealt StyleGANis tõlkeekvivariatsiooni.
VToonify ühendab StyleGAN-põhise arhitektuuri ja piltide tõlkimise raamistiku eelised, et saavutada reguleeritav kõrge eraldusvõimega portreevideo stiili edastus.
Peamised panused on järgmised:
- Teadlased uurivad StyleGANi fikseeritud saagipiirangut ja pakuvad välja tõlke ekvivariatsioonil põhineva lahenduse.
- Teadlased esitlevad ainulaadset täielikult konvolutsioonilist VToonify raamistikku kontrollitud kõrge eraldusvõimega portreevideo stiilis edastamiseks, mis toetab joondamata nägusid ja erinevaid videosuurusi.
- Teadlased konstrueerivad VToonify Toonify ja DualStyleGANi põhialustele ning koondavad selgroogu nii andmete kui ka mudeli osas, et võimaldada kollektsioonipõhist ja näidispõhist portreevideo stiili ülekandmist.
Vtoonify võrdlemine teiste tipptasemel mudelitega
Tooniseerivad
See on aluseks kollektsioonipõhisele stiiliülekandele joondatud nägudel, kasutades StyleGANi. Stiilikoodide hankimiseks peavad teadlased PSP jaoks näod joondama ja 256256 fotot kärpima. Toonifyt kasutatakse stiliseeritud tulemuse genereerimiseks 1024*1024 stiilikoodidega.
Lõpuks joondavad nad videos oleva tulemuse uuesti algsesse asukohta. Stiliseerimata ala on seatud mustaks.
DualStyleGAN
See on StyleGANil põhineva eeskujupõhise stiiliedastuse selgroog. Nad kasutavad samu andmete eel- ja järeltöötluse tehnikaid nagu Toonify.
Pix2pixHD
See on kujutisest pildiks tõlkemudel, mida tavaliselt kasutatakse eelkoolitatud mudelite koondamiseks kõrge eraldusvõimega redigeerimiseks. Seda treenitakse paarisandmete abil.
Teadlased kasutavad pix2pixHD-d oma eksemplari kaardi täiendavate sisenditena, kuna see kasutab ekstraheeritud sõelumiskaarti.
Esimese järjekorra liikumine
FOM on tüüpiline pildianimatsioonimudel. Seda treeniti 256256 256 pildil ja see toimib teiste kujutiste suurustega halvasti. Selle tulemusena skaleerivad teadlased esmalt videokaadreid 256*XNUMX-ni, et FOM-i saaks animatsiooniks muuta, ja seejärel muudavad tulemuste suurust nende algsuurus.
Ausa võrdluse huvides kasutab FOM oma lähenemisviisi esimest stiliseeritud kaadrit võrdlusstiili kujutisena.
DaGAN
See on 3D-näoanimatsioonimudel. Nad kasutavad samu andmete ettevalmistamise ja järeltöötluse meetodeid nagu FOM.
Eelised
- Seda saab kasutada kunstis, sotsiaalmeedia avatarides, filmides, meelelahutusreklaamides jne.
- Vtoonifyd saab kasutada ka metaversumis.
Piirangud
- See metoodika eraldab nii andmed kui ka mudeli StyleGAN-põhistest selgroogidest, mille tulemuseks on andmete ja mudeli kallutamine.
- Artefaktid on enamasti põhjustatud stiliseeritud näopiirkonna ja teiste sektsioonide suuruse erinevustest.
- See strateegia on näopiirkonna asjadega tegelemisel vähem edukas.
Järeldus
Lõpuks on VToonify raamistik stiiliga juhitava kõrge eraldusvõimega video tooniseerimiseks.
See raamistik saavutab videote käsitlemisel suurepärase jõudluse ja võimaldab laiaulatuslikku kontrolli struktuurse stiili, värvistiili ja stiili astme üle, koondades StyleGAN-põhised kujutise tooniseerimismudelid nii nende poolest. sünteetilised andmed ja võrgustruktuurid.
Jäta vastus