Vtoonify: Makontrolar nga High-Resolution Portrait Video Style Transfer

Kaundan[Itago][Ipakita]

Unsa ang Vtoonify?
Unsang paagi kini sa trabaho?
Mga Limitasyon sa StyleGAN ug Gisugyot nga Vtoonify
Pagkumpara sa Vtoonify sa uban pang mga modelo nga moderno+-
bentaha+-
- limitasyon
Panapos

Kini usa ka hinungdanon ug tilinguhaon nga buluhaton sa panan-awon sa kompyuter ug mga graphic aron makagama og mga mamugnaon nga portrait films sa labing taas nga kalibre.

Bisan kung gisugyot ang daghang epektibo nga mga modelo alang sa pag-toonification sa litrato sa litrato nga gibase sa kusog nga StyleGAN, kini nga mga teknik nga nakabase sa imahe adunay tin-aw nga mga kakulangan kung gigamit sa mga video, sama sa gitakda nga gidak-on sa frame, ang kinahanglanon alang sa pag-align sa nawong, ang pagkawala sa mga detalye nga wala’y nawong. , ug temporal inconsistency.

Usa ka rebolusyonaryong VToonify framework ang gigamit aron masulbad ang lisud nga kontrolahon nga high-resolution nga portrait video style nga pagbalhin.

Atong susihon ang pinakabag-o nga pagtuon sa VToonify sa kini nga artikulo, lakip ang pagpaandar niini, mga kakulangan, ug uban pang mga hinungdan.

Unsa ang Vtoonify?

Gitugotan sa VToonify nga balangkas ang pagpahiangay sa pagpasa sa istilo sa istilo sa video nga adunay taas nga resolusyon.

Gigamit sa VToonify ang tunga-tunga ug taas nga resolusyon nga mga layer sa StyleGAN aron makamugna og taas nga kalidad nga artistikong mga hulagway nga gibase sa multi-scale nga mga kinaiya sa sulod nga nakuha sa usa ka encoder aron mapabilin ang mga detalye sa frame.

Ang resulta nga bug-os nga convolutional nga arkitektura nagkuha sa mga dili aligned nga mga nawong sa variable-size nga mga salida isip input, nga miresulta sa tibuok-nawong nga mga rehiyon nga adunay realistiko nga mga paglihok sa output.

Vtoonify

Ang kini nga balangkas nahiuyon sa karon nga mga modelo sa toonification sa imahe nga nakabase sa StyleGAN, nga gitugotan sila nga madugangan sa toonification sa video, ug makapanunod sa madanihon nga mga kinaiya sama sa adjustable nga kolor ug pagpasadya sa intensity.

Kini pagtuon nagpaila sa duha ka instantiations sa VToonify base sa Toonify ug DualStyleGAN alang sa collection-based ug exemplar-based portrait video style transfer, matag usa.

Gipakita sa daghang mga eksperimento nga nahibal-an nga ang gisugyot nga balangkas sa VToonify milabaw sa naglungtad nga mga pamaagi sa paghimo og taas nga kalidad, temporal nga managsama nga artistic nga mga salida sa portrait nga adunay mga parameter sa estilo nga lainlain.

Ang mga tigdukiduki naghatag sa Google Colab notebook, aron mahugawan nimo ang imong mga kamot niini.

Unsang paagi kini sa trabaho?

Aron makab-ot ang adjustable nga high-resolution nga portrait video style transfer, ang VToonify naghiusa sa mga bentaha sa image translation framework uban sa StyleGAN-based framework.

Nagtrabaho ang Vtoonify

Aron ma-accommodate ang lain-laing mga gidak-on sa input, ang sistema sa paghubad sa imahe naggamit sa hingpit nga convolutional network. Ang pagbansay gikan sa wala, sa laing bahin, naghimo sa taas nga resolusyon ug kontrolado nga pagpasa sa estilo nga imposible.

Ang pre-trained StyleGAN nga modelo gigamit sa StyleGAN-based nga gambalay para sa taas nga resolusyon ug kontrolado nga pagbalhin sa estilo, bisan tuod kini limitado sa gitakdang gidak-on sa hulagway ug mga pagkawala sa detalye.

Ang StyleGAN giusab sa hybrid nga gambalay pinaagi sa pagtangtang sa fixed-sized nga input feature ug ubos nga resolusyon nga mga layer, nga miresulta sa hingpit nga convolutional encoder-generator nga arkitektura nga susama sa image translation framework.

Aron mamentinar ang mga detalye sa frame, bansayon ang usa ka encoder aron makuha ang daghang mga kinaiya nga sulud sa sulud sa input frame ingon usa ka dugang nga kinahanglanon sa sulud sa generator. Gipanunod sa Vtoonify ang pagka-flexible sa pagkontrol sa istilo sa modelo sa StyleGAN pinaagi sa pagbutang niini sa generator aron makuha ang datos ug modelo niini.

Mga Limitasyon sa StyleGAN ug Gisugyot nga Vtoonify

Ang artistic nga mga hulagway kay kasagaran sa atong adlaw-adlaw nga kinabuhi ingon man sa mga mamugnaong negosyo sama sa art, social media avatar, salida, kalingawan advertising, ug uban pa.

Sa pag-uswag sa lawom nga pagkat-on teknolohiya, posible na karon ang paghimo og taas nga kalidad nga artistic nga mga hulagway gikan sa tinuod nga kinabuhi nga mga litrato sa nawong gamit ang automated nga portrait style transfer.

Adunay lainlain nga malampuson nga mga paagi nga gihimo alang sa pagbalhin sa istilo nga nakabase sa imahe, kadaghanan niini dali nga ma-access sa mga nagsugod nga tiggamit sa porma sa mga mobile application. Ang materyal sa video dali nga nahimong panguna sa among mga feed sa social media sa miaging pipila ka tuig.

Ang pagsaka sa social media ug ephemeral nga mga pelikula nakadugang sa panginahanglan alang sa bag-ong video editing, sama sa portrait video style transfer, aron makamugna og malampuson ug makapaikag nga mga video.

Ang naglungtad nga mga teknik nga nakapunting sa imahe adunay daghang mga kakulangan kung gigamit sa mga salida, nga gilimitahan ang ilang kapuslanan sa awtomatikong pag-istilo sa litrato sa video.

Ang StyleGAN usa ka komon nga backbone alang sa pag-ugmad sa usa ka portrait picture style transfer model tungod sa kapasidad niini sa paghimo og taas nga kalidad nga mga nawong nga adunay adjustable style management.

Usa ka StyleGAN-based nga sistema (nailhan usab nga picture toonification) nag-encode sa usa ka tinuod nga nawong ngadto sa StyleGAN latent space ug dayon i-apply ang resulta nga style code ngadto sa lain nga StyleGAN nga maayo-toned sa artistic portrait dataset aron makamugna og stylized nga bersyon.

Ang StyleGAN nagmugna og mga hulagway nga adunay aligned nga mga nawong ug sa usa ka fixed size, nga dili mopabor sa dinamikong mga nawong sa real-world footage. Ang pag-crop ug pag-align sa nawong sa video usahay moresulta sa partial nga nawong ug awkward nga mga lihok. Gitawag sa mga tigdukiduki kini nga isyu nga 'fixed-crop restriction' sa StyleGAN.

Alang sa dili magkaparehas nga mga nawong, ang StyleGAN3 gisugyot; bisan pa, kini nagsuporta lamang sa usa ka set nga gidak-on sa hulagway.

Dugang pa, ang usa ka bag-o nga pagtuon nakadiskobre nga ang pag-encode sa dili aligned nga mga nawong mas hagit kaysa aligned nga mga nawong. Ang dili husto nga pag-encode sa nawong makadaot sa pagbalhin sa istilo sa portrait, nga moresulta sa mga isyu sama sa pagbag-o sa identidad ug nawala nga mga sangkap sa giayo ug gi-istilo nga mga frame.

Sama sa gihisgutan, ang usa ka episyente nga teknik alang sa pagbalhin sa istilo sa litrato sa video kinahanglan magdumala sa mga musunud nga isyu:

Aron mapreserbar ang realistiko nga mga lihok, ang pamaagi kinahanglan nga makahimo sa pag-atubang sa dili managsama nga mga nawong ug lain-laing mga gidak-on sa video. Ang usa ka dako nga gidak-on sa video, o usa ka halapad nga anggulo sa pagtan-aw, makakuha og dugang nga impormasyon samtang gipugngan ang nawong gikan sa paglihok gikan sa frame.
Aron makigkompetensya sa kasagarang gigamit nga mga gadyet sa HD karon, gikinahanglan ang taas nga resolusyon nga video.
Ang flexible nga pagkontrol sa estilo kinahanglan nga itanyag alang sa mga tiggamit aron mabag-o ug pilion ang ilang pagpili kung maghimo usa ka realistiko nga sistema sa interaksyon sa tiggamit.

Sa kana nga katuyoan, gisugyot sa mga tigdukiduki ang VToonify, usa ka nobela nga hybrid nga balangkas alang sa toonification sa video. Aron mabuntog ang fixed crop constraint, ang mga tigdukiduki nagtuon una sa translation equivariance sa StyleGAN.

Gihiusa sa VToonify ang mga benepisyo sa arkitektura nga nakabase sa StyleGAN ug ang balangkas sa paghubad sa imahe aron makab-ot ang mapaigoigo nga pagbalhin sa istilo sa istilo sa video nga adunay taas nga resolusyon.

Ang mosunod mao ang dagkong kontribusyon:

Gisusi sa mga tigdukiduki ang gitakdang pag-ani sa StyleGAN nga pagpugong ug gisugyot ang usa ka solusyon base sa equivariance sa paghubad.
Gipresentar sa mga tigdukiduki ang usa ka talagsaon nga bug-os nga convolutional nga VToonify nga balangkas para sa kontrolado nga high-resolution nga portrait video style nga pagbalhin nga nagsuporta sa dili magkaparehas nga mga nawong ug lain-laing mga gidak-on sa video.
Gitukod sa mga tigdukiduki ang VToonify sa mga backbone sa Toonify ug DualStyleGAN ug gipamubu ang mga backbone sa mga termino sa parehas nga datos ug modelo aron mahimo ang pagbalhin sa istilo sa istilo sa video nga gibase sa koleksyon ug gibase sa ehemplo.

Pagkumpara sa Vtoonify sa uban pang mga modelo nga moderno

Pagpahiangay

Nagsilbi kini nga pundasyon alang sa pagbalhin sa istilo nga nakabase sa koleksyon sa mga naka-align nga nawong gamit ang StyleGAN. Aron makuha ang mga code sa estilo, ang mga tigdukiduki kinahanglan nga ipahiangay ang mga nawong ug i-crop ang 256256 nga mga litrato para sa PSP. Gigamit ang Toonify aron makamugna og usa ka stylized nga resulta nga adunay 1024*1024 style codes.

Sa katapusan, ilang gi-align pag-usab ang resulta sa video sa orihinal nga lokasyon niini. Ang un-stylized nga lugar gibutang sa itom.

Pagkumpara sa Vtoonify Sa Ubang Mga Modelo sa Estado sa Art

DualStyleGAN

Kini usa ka backbone alang sa exemplar-based nga pagbalhin sa estilo base sa StyleGAN. Gigamit nila ang parehas nga mga pamaagi sa pre-ug post-processing nga datos sama sa Toonify.

Pix2pixHD

Kini usa ka modelo sa paghubad sa imahe-sa-larawan nga sagad gigamit sa pag-condense sa mga pre-trained nga modelo alang sa taas nga resolusyon nga pag-edit. Gibansay kini gamit ang gipares nga datos.

Gigamit sa mga tigdukiduki ang pix2pixHD isip dugang nga mga input sa mapa sa pananglitan tungod kay naggamit kini nga nakuha nga mapa sa pag-parse.

Unang Order Motion

Ang FOM usa ka tipikal nga modelo sa animation sa imahe. Gibansay kini sa 256256 nga mga hulagway ug dili maayo ang performance sa ubang mga gidak-on sa hulagway. Ingon usa ka sangputanan, una nga gisukod sa mga tigdukiduki ang mga frame sa video sa 256 * 256 alang sa FOM sa animation ug dayon gibag-o ang mga resulta sa ilang orihinal nga gidak-on.

Alang sa patas nga pagtandi, gigamit sa FOM ang una nga gi-istilo nga frame sa pamaagi niini ingon nga imahe sa istilo sa pakisayran.

DaGAN

Kini usa ka 3D nga modelo sa animation sa nawong. Gigamit nila ang parehas nga pag-andam sa datos ug mga pamaagi sa postprocessing sama sa FOM.

Kauban

bentaha

Mahimo kini gamiton sa mga arte, mga avatar sa social media, mga salida, advertising sa kalingawan, ug uban pa.
Ang Vtoonify mahimo usab nga magamit sa metaverse.

limitasyon

Kini nga pamaagi nagkuha sa datos ug modelo gikan sa StyleGAN-based backbones, nga miresulta sa data ug model bias.
Ang mga artifact kasagaran tungod sa mga kalainan sa gidak-on tali sa gi-istilo nga rehiyon sa nawong ug sa ubang mga seksyon.
Kini nga estratehiya dili kaayo malampuson kung mag-atubang sa mga butang sa rehiyon sa nawong.

Panapos

Sa katapusan, ang VToonify usa ka balangkas alang sa pagkontrol sa istilo sa high-resolution nga video toonification.

Kini nga balangkas nakab-ot ang maayo nga pasundayag sa pagdumala sa mga video ug nagtugot sa halapad nga pagkontrol sa istilo sa istruktura, istilo sa kolor, ug lebel sa istilo pinaagi sa pagkondensasyon sa mga modelo sa toonification sa imahe nga nakabase sa StyleGAN sa mga termino sa ilang duha. sintetikong datos ug mga istruktura sa network.

Vtoonify: Makontrolar nga High-Resolution Portrait Video Style Transfer

Unsa ang Vtoonify?

Unsang paagi kini sa trabaho?

Mga Limitasyon sa StyleGAN ug Gisugyot nga Vtoonify