Vtoonify: vadāma augstas izšķirtspējas portreta video stila pārsūtīšana

Saturs[Paslēpt][Rādīt]

Kas ir Vtoonify?
Kā tas darbojas?
StyleGAN un piedāvātā Vtoonify ierobežojumi
Vtoonify salīdzināšana ar citiem modernākajiem modeļiem+-
Priekšrocības+-
- Ierobežojumi
Secinājumi

Tas ir būtisks un vēlams uzdevums datorredzēšanā un grafikā, lai radītu visaugstākā kalibra radošas portretfilmas.

Lai gan ir ierosināti vairāki efektīvi modeļi portreta attēla tonizācijai, pamatojoties uz spēcīgo StyleGAN, šīm uz attēlu orientētajām metodēm ir skaidri trūkumi, ja tos izmanto kopā ar video, piemēram, fiksēts kadra izmērs, prasība pēc sejas izlīdzināšanas, ar seju nesaistītu detaļu trūkums. , un laika neatbilstība.

Revolucionārs VToonify ietvars tiek izmantots, lai risinātu sarežģīti kontrolētu augstas izšķirtspējas portreta video stila pārsūtīšanu.

Šajā rakstā mēs apskatīsim jaunāko VToonify pētījumu, tostarp tā funkcionalitāti, trūkumus un citus faktorus.

Kas ir Vtoonify?

VToonify sistēma ļauj pielāgot augstas izšķirtspējas portreta video stila pārraidi.

VToonify izmanto StyleGAN vidējas un augstas izšķirtspējas slāņus, lai izveidotu augstas kvalitātes mākslinieciskus portretus, kuru pamatā ir daudzpakāpju satura raksturlielumi, ko izguvis kodētājs, lai saglabātu kadra detaļas.

Rezultātā iegūtā pilnībā konvolucionālā arhitektūra izmanto nesaskaņotas sejas mainīga izmēra filmās kā ievadi, kā rezultātā tiek iegūti visas sejas apgabali ar reālistiskām kustībām izvadē.

Vtoonify

Šis ietvars ir saderīgs ar pašreizējiem StyleGAN bāzes attēlu tonizācijas modeļiem, ļaujot tos attiecināt uz video tonizāciju, un pārmanto pievilcīgas īpašības, piemēram, regulējamu krāsu un intensitātes pielāgošanu.

šis studēt ievieš divas VToonify instancijas, kuru pamatā ir Toonify un DualStyleGAN, lai pārsūtītu attiecīgi uz kolekciju un uz paraugiem balstītu portreta video stilu.

Plaši eksperimentālie atklājumi liecina, ka piedāvātā VToonify sistēma pārspēj esošās pieejas augstas kvalitātes, īslaicīgi saskaņotu māksliniecisku portretu filmu veidošanā ar mainīgiem stila parametriem.

Pētnieki nodrošina Google Colab piezīmju grāmatiņa, lai jūs varētu to sasmērēt.

Kā tas darbojas?

Lai veiktu regulējamu augstas izšķirtspējas portreta video stila pārsūtīšanu, VToonify apvieno attēlu tulkošanas sistēmas priekšrocības ar StyleGAN balstītu sistēmu.

Vtoonify darbojas

Lai pielāgotu dažādus ievades izmērus, attēlu tulkošanas sistēma izmanto pilnībā konvolūcijas tīklus. No otras puses, apmācība no nulles padara augstas izšķirtspējas un kontrolēta stila pārraidi neiespējamu.

Iepriekš sagatavotais StyleGAN modelis tiek izmantots uz StyleGAN balstītā sistēmā augstas izšķirtspējas un kontrolēta stila pārsūtīšanai, lai gan tas ir ierobežots ar fiksētu attēla izmēru un detaļu zudumiem.

StyleGAN ir modificēts hibrīda ietvarā, dzēšot tā fiksētā izmēra ievades funkciju un zemas izšķirtspējas slāņus, kā rezultātā tiek iegūta pilnībā konvolucionāla kodētāja-ģeneratora arhitektūra, kas ir līdzīga attēlu tulkošanas ietvaram.

Lai saglabātu kadra detaļas, apmāciet kodētāju izvilkt ievades kadra daudzpakāpju satura raksturlielumus kā papildu satura prasību ģeneratoram. Vtoonify pārmanto StyleGAN modeļa stila vadības elastību, ievietojot to ģeneratorā, lai destilētu gan tā datus, gan modeli.

StyleGAN un piedāvātā Vtoonify ierobežojumi

Mākslinieciski portreti ir izplatīti mūsu ikdienas dzīvē, kā arī radošajā biznesā, piemēram, mākslā, sociālo mediju iemiesojumi, filmas, izklaides reklāma un tā tālāk.

Attīstoties dziļa mācīšanās tehnoloģiju, tagad ir iespējams izveidot augstas kvalitātes mākslinieciskus portretus no reālām sejas fotogrāfijām, izmantojot automatizētu portreta stila pārsūtīšanu.

Uz attēliem balstītai stila pārsūtīšanai ir izveidoti dažādi veiksmīgi veidi, no kuriem daudzi ir viegli pieejami iesācējiem mobilo lietojumprogrammu veidā. Videomateriāli pēdējos gados ir ātri kļuvuši par mūsu sociālo mediju plūsmu galveno balstu.

Sociālo mediju un īslaicīgu filmu pieaugums ir palielinājis pieprasījumu pēc novatoriskas video rediģēšanas, piemēram, portreta video stila pārsūtīšanas, lai radītu veiksmīgus un interesantus videoklipus.

Esošajām uz attēlu orientētajām metodēm ir būtiski trūkumi, ja tās tiek izmantotas filmām, ierobežojot to lietderību automatizētā portreta video stilizācijā.

StyleGAN ir izplatīts mugurkauls portreta attēla stila pārsūtīšanas modeļa izstrādei, jo tas spēj izveidot augstas kvalitātes sejas ar regulējamu stila pārvaldību.

Uz StyleGAN balstīta sistēma (pazīstama arī kā attēla tonizācija) kodē reālu seju StyleGAN latentā telpā un pēc tam piemēro iegūto stila kodu citam StyleGAN, kas precīzi noregulēts mākslinieciskā portreta datu kopā, lai izveidotu stilizētu versiju.

StyleGAN veido attēlus ar izlīdzinātām sejām un fiksētā izmērā, kas nedod priekšroku dinamiskām sejām reālās pasaules kadros. Sejas apgriešana un izlīdzināšana videoklipā dažkārt rada daļēju seju un neveiklus žestus. Pētnieki šo problēmu sauc par StyleGAN "fiksētās ražas ierobežojumu".

Nelīdzinātām sejām ir piedāvāts StyleGAN3; tomēr tas atbalsta tikai iestatītu attēla izmēru.

Turklāt nesen veikts pētījums atklāja, ka nesaskaņotu seju kodēšana ir grūtāka nekā izlīdzinātu seju kodēšana. Nepareizs sejas kodējums kaitē portreta stila pārsūtīšanai, kā rezultātā rodas problēmas, piemēram, identitātes izmaiņas un trūkst komponentu rekonstruētajos un veidotajos kadros.

Kā minēts, efektīvai portreta video stila pārsūtīšanas tehnikai ir jārisina šādas problēmas:

Lai saglabātu reālistiskas kustības, šai pieejai ir jāspēj tikt galā ar nesaskaņotām sejām un dažādiem video izmēriem. Liels video izmērs vai plats skata leņķis var uzņemt vairāk informācijas, vienlaikus neļaujot sejai izkļūt no kadra.
Lai konkurētu ar mūsdienās plaši izmantotajiem HD sīkrīkiem, ir nepieciešams augstas izšķirtspējas video.
Izstrādājot reālistisku lietotāja mijiedarbības sistēmu, lietotājiem ir jāpiedāvā elastīga stila vadība, lai tās varētu mainīt un izvēlēties savu izvēli.

Šim nolūkam pētnieki iesaka VToonify, jaunu hibrīda sistēmu video tonifikācijai. Lai pārvarētu fiksēto ražas ierobežojumu, pētnieki vispirms pēta tulkošanas ekvivarianci StyleGAN.

VToonify apvieno uz StyleGAN balstītas arhitektūras un attēlu tulkošanas sistēmas priekšrocības, lai panāktu regulējamu augstas izšķirtspējas portreta video stila pārsūtīšanu.

Tālāk ir norādīti galvenie ieguldījumi:

Pētnieki pēta StyleGAN fiksētās ražas ierobežojumu un piedāvā risinājumu, kura pamatā ir tulkošanas ekvivariance.
Pētnieki piedāvā unikālu pilnībā konvolucionālu VToonify sistēmu kontrolētai augstas izšķirtspējas portreta video stila pārsūtīšanai, kas atbalsta nesaskaņotas sejas un dažādus video izmērus.
Pētnieki konstruē VToonify uz Toonify un DualStyleGAN mugurkauliem un apvieno mugurkaulu gan datu, gan modeļa ziņā, lai nodrošinātu uz kolekciju balstītu un uz paraugiem balstītu portreta video stila pārsūtīšanu.

Vtoonify salīdzināšana ar citiem modernākajiem modeļiem

Toonizē

Tas kalpo par pamatu kolekcijas stila pārsūtīšanai uz izlīdzinātām sejām, izmantojot StyleGAN. Lai izgūtu stila kodus, pētniekiem ir jāsaskaņo sejas un jāapgriež 256256 fotoattēli PSP. Toonify tiek izmantots, lai ģenerētu stilizētu rezultātu ar 1024*1024 stila kodiem.

Visbeidzot, tie atkārtoti pielīdzina video rezultātu tā sākotnējai atrašanās vietai. Nestilizētais apgabals ir iestatīts uz melnu.

Vtoonify salīdzināšana ar citiem modernākajiem modeļiem

DualStyleGAN

Tas ir mugurkauls stila pārsūtīšanai, kuras pamatā ir StyleGAN. Tie izmanto tās pašas datu priekšapstrādes un pēcapstrādes metodes kā Toonify.

Pix2pixHD

Tas ir attēla pārveidošanas modelis, ko parasti izmanto, lai apkopotu iepriekš sagatavotus modeļus augstas izšķirtspējas rediģēšanai. Tas tiek apmācīts, izmantojot pārī savienotus datus.

Pētnieki izmanto pix2pixHD kā papildu instanču kartes ievades, jo tajā tiek izmantota iegūta parsēšanas karte.

Pirmās kārtas kustība

FOM ir tipisks attēlu animācijas modelis. Tas tika apmācīts uz 256256 attēliem un slikti darbojas ar citiem attēlu izmēriem. Rezultātā pētnieki vispirms mērogoja video kadrus līdz 256*256, lai FOM uz animāciju, un pēc tam maina rezultātu izmērus līdz to sākotnējam izmēram.

Godīgam salīdzinājumam FOM izmanto savu pieejas pirmo stilizēto kadru kā atsauces stila attēlu.

DaGAN

Tas ir 3D sejas animācijas modelis. Tie izmanto tās pašas datu sagatavošanas un pēcapstrādes metodes kā FOM.

Salīdzinājums

Priekšrocības

To var izmantot mākslā, sociālo mediju iemiesojumos, filmās, izklaides reklāmās un tā tālāk.
Vtoonify var izmantot arī metaversā.

Ierobežojumi

Šī metodoloģija iegūst gan datus, gan modeli no StyleGAN bāzes mugurkauliem, kā rezultātā tiek iegūti dati un modeļa novirze.
Artefaktus galvenokārt izraisa izmēru atšķirības starp stilizētu sejas reģionu un pārējām sadaļām.
Šī stratēģija ir mazāk veiksmīga, risinot lietas sejas reģionā.

Secinājumi

Visbeidzot, VToonify ir ietvars stila kontrolētai augstas izšķirtspējas video toonizācijai.

Šis ietvars nodrošina lielisku veiktspēju videoklipu apstrādē un ļauj plaši kontrolēt strukturālo stilu, krāsu stilu un stila pakāpi, kondensējot uz StyleGAN balstītus attēlu tonizācijas modeļus gan to izteiksmē. sintētiskie dati un tīkla struktūras.

Vtoonify: vadāma augstas izšķirtspējas portreta video stila pārsūtīšana

Kas ir Vtoonify?

Kā tas darbojas?

StyleGAN un piedāvātā Vtoonify ierobežojumi