Et ass eng entscheedend a wënschenswäert Aufgab an der Computervisioun a Grafik fir kreativ Porträtfilmer vum héchste Kaliber ze produzéieren.
Och wann e puer effektiv Modeller fir Porträtbild Toonifikatioun baséiert op der potenter StyleGAN proposéiert goufen, hunn dës Bildorientéiert Techniken kloer Nodeeler wann se mat Videoe benotzt ginn, sou wéi déi fix Framegréisst, d'Ufuerderung fir Gesiichtsausrichtung, d'Feele vun net-Gesiichtsdetailer. , an temporär Inkonsistenz.
E revolutionäre VToonify Kader gëtt benotzt fir de schwéier kontrolléierten High-Resolution Portrait Video Style Transfer unzegoen.
Mir wäerten déi lescht Studie iwwer VToonify an dësem Artikel ënnersichen, dorënner seng Funktionalitéit, Nodeeler an aner Faktoren.
Wat ass Vtoonify?
VToonify Kader erlaabt personaliséierbar héich-Resolutioun Porträt Video Stil Transmissioun.
VToonify benotzt StyleGAN Mid- an High-Resolutioun Schichten fir héichqualitativ artistesch Portraite ze kreéieren op Basis vu Multi-Skala Inhaltseigenschaften, déi vun engem Encoder erëmfonnt ginn, fir Frame Detailer ze halen.
Déi resultéierend voll konvolutional Architektur hëlt net ausgeriicht Gesiichter a verännerleche Gréisst Filmer als Input, wat zu ganz Gesiichtsregiounen mat realistesche Beweegunge am Ausgang resultéiert.
Dëse Kader ass kompatibel mat aktuellen StyleGAN-baséiert Bild Toonifikatioun Modeller, et erlaabt hinnen ze Video Toonification verlängert ginn, an ierft attraktiv Charakteristiken wéi justierbar Faarf an Intensitéit Personnalisatioun.
dëst studéieren féiert zwee Instantiatioune vu VToonify op Basis vun Toonify an DualStyleGAN fir Kollektioun-baséiert an exemplaresch-baséiert Porträt-Video-Stil Transfer, respektiv.
Extensiv experimentell Erkenntnisser weisen datt de proposéierte VToonify-Framework outperforms existent Approche fir héichqualitativ, temporär kohärent artistesch Porträtfilmer mat variabelen Stilparameter ze maachen.
Fuerscher bidden de Google Colab Notizbuch, sou datt Dir d'Hänn dreckeg kënnt.
Wéi heescht et schaffen?
Fir justierbar High-Resolutioun Porträt-Video-Stil Transfert z'erreechen, kombinéiert VToonify d'Virdeeler vum Bild Iwwersetzungsframework mat dem StyleGAN-baséierte Kader.
Fir variéierend Inputgréissten z'empfänken, beschäftegt de Bild Iwwersetzungssystem voll konvolutional Netzwierker. Training vun Null, op der anerer Säit, mécht Héichopléisung a kontrolléiert Stil Iwwerdroung onméiglech.
De Pre-trainéiert StyleGAN Modell gëtt am StyleGAN-baséierte Kader fir Héichopléisung a kontrolléiert Stiltransfer benotzt, obwuel et op fixe Bildgréisst an Detailverloschter limitéiert ass.
StyleGAN gëtt am Hybrid Framework geännert andeems seng fixe Gréisst Input Feature a Low-Resolution Schichten geläscht gëtt, wat zu enger voll konvolutionaler Encoder-Generator Architektur ähnlech wéi déi vum Bild Iwwersetzungsframework resultéiert.
Fir Frame Detailer z'erhalen, trainéiert en Encoder fir Multi-Skala Inhaltseigenschaften vum Input Frame als zousätzlech Inhalterfuerderung fir den Generator ze extrahieren. Vtoonify ierft dem StyleGAN Modell seng Stil Kontroll Flexibilitéit andeems se se an de Generator setzen fir souwuel seng Donnéeën a Modell ze distilléieren.
Aschränkungen vun StyleGAN & Proposéiert Vtoonify
Kënschtleresch Portraite sinn heefeg an eisem Alldag wéi och a kreativen Geschäfter wéi Konscht, sozial Medien Avataren, Filmer, Ënnerhalung Reklammen, a sou weider.
Mat der Entwécklung vum ze léieren Technologie, ass et elo méiglech qualitativ héichwäerteg artistesch Portraiten aus reale Gesiichtsfotoen ze kreéieren andeems se automatiséiert Porträtstiltransfer benotzen.
Et gi verschidde erfollegräich Weeër fir Bild-baséiert Stiltransfer erstallt, vill vun deenen si liicht zougänglech fir Ufänger Benotzer a Form vu mobilen Uwendungen. Videomaterial ass séier e Grondsteen vun eise soziale Medienfeeds an de leschte Joren ginn.
Den Opstig vu soziale Medien an ephemeral Filmer huet d'Nofro fir innovativ Video Redaktioun erhéicht, sou wéi Portrait Video Style Transfer, fir erfollegräich an interessant Videoen ze generéieren.
Bestehend bildorientéiert Techniken hunn bedeitend Nodeeler wann se op Filmer applizéiert ginn, wat hir Nëtzlechkeet an der automatiséierter Porträt-Video-Styliséierung limitéiert.
StyleGAN ass e gemeinsame Réckgrat fir e Portrait Bildstil Transfermodell z'entwéckelen wéinst senger Kapazitéit fir héichqualitativ Gesiichter mat justierbarer Stilmanagement ze kreéieren.
E StyleGAN-baséiert System (och bekannt als Bild Toonification) codéiert e richtegt Gesiicht an de StyleGAN latente Raum an applizéiert dann de resultéierende Stilcode op en anere StyleGAN, deen op der artistescher Porträt-Datasette ofgestëmmt ass fir eng stiliséierter Versioun ze kreéieren.
StyleGAN erstellt Biller mat ausgeriichte Gesiichter an enger fixer Gréisst, déi net dynamesch Gesiichter an real-Welt Footage favoriséiert. Gesiichtscropping an Ausrichtung am Video resultéieren heiansdo zu engem deelweis Gesiicht an ongewéinleche Gesten. D'Fuerscher nennen dëst Thema StyleGAN's 'fixe Crop Restriktioun'.
Fir unaligned Gesiichter, StyleGAN3 gouf proposéiert; awer, et ënnerstëtzt nëmmen eng Formatioun Bild Gréisst.
Ausserdeem huet eng rezent Etude entdeckt datt d'Kodéierung vun onalignéierte Gesiichter méi Erausfuerderung ass wéi ausgeriicht Gesiichter. Falsch Gesiichtskodéierung ass schiedlech fir Porträtstiltransfer, wat zu Themen wéi Identitéitsännerung a fehlend Komponenten an de rekonstruéierten a stiléierte Rummen resultéiert.
Wéi diskutéiert, muss eng effizient Technik fir Porträt-Video-Stil Transfer déi folgend Themen behandelen:
- Fir realistesch Bewegungen ze erhaalen, muss d'Approche fäeg sinn mat onausgeriichtte Gesiichter a variéiert Videogréissten ëmzegoen. Eng grouss Videogréisst, oder e Wäitwénkel, kann méi Informatioun erfaassen, wärend d'Gesiicht net aus dem Frame beweegt.
- Fir mat haut allgemeng benotzt HD Gadgeten ze konkurréiere, ass héichopléisende Video néideg.
- Flexibel Stilkontrolle solle fir Benotzer ugebuede ginn fir hire Choix z'änneren an ze wielen wann se e realistesche Benotzerinteraktiounssystem entwéckelen.
Zu deem Zweck proposéiere Fuerscher VToonify, e Roman Hybrid Kader fir Video Toonifikatioun. Fir déi fix Erntebeschränkung ze iwwerwannen, studéieren d'Fuerscher als éischt Iwwersetzungsgläichheet am StyleGAN.
VToonify kombinéiert d'Virdeeler vun der StyleGAN-baséierter Architektur an dem Bild Iwwersetzungskader fir justierbar High-Resolution Portrait Video Style Transfer z'erreechen.
Déi folgend sinn déi wichtegst Bäiträg:
- D'Fuerscher ënnersichen dem StyleGAN seng fixe Erntebeschränkung a proposéieren eng Léisung baséiert op Iwwersetzungsgläichheet.
- D'Fuerscher presentéieren en eenzegaartegen voll konvolutionalen VToonify Kader fir kontrolléiert héichopléisend Porträt-Video-Stil-Transfer, deen unalignéiert Gesiichter a verschidde Videogréissten ënnerstëtzt.
- Fuerscher konstruéieren VToonify op de Backbones vun Toonify an DualStyleGAN a kondenséieren d'Réckgraten a punkto Daten a Modell fir Sammlung-baséiert an exemplaresch-baséiert Porträt-Video-Stil Transfer z'erméiglechen.
Vergläicht Vtoonify mat anere modernste Modeller
Toonify
Et déngt als Fondatioun fir Kollektioun-baséiert Stil Transfert op ausgeriicht Gesiichter benotzt StyleGAN. Fir d'Stylcoden ze recuperéieren, mussen d'Fuerscher Gesiichter ausriichten an 256256 Fotoen fir PSP ernähren. Toonify gëtt benotzt fir e stiliséierte Resultat mat 1024 * 1024 Stilcoden ze generéieren.
Endlech alignéieren se d'Resultat am Video op seng ursprénglech Plaz. Den onstiliséierte Gebitt gouf op schwaarz gesat.
DualStyleGAN
Et ass e Réckgrat fir exemplar-baséiert Stiltransfer baséiert op StyleGAN. Si benotzen déiselwecht Daten Pre- a Postveraarbechtungstechniken wéi Toonify.
Pix2pixHD
Et ass e Bild-zu-Bild Iwwersetzungsmodell deen allgemeng benotzt gëtt fir pre-trainéiert Modeller fir héichopléisend Redaktioun ze kondenséieren. Et gëtt trainéiert mat gepaarten Daten.
Fuerscher benotzen pix2pixHD als seng zousätzlech Instanzkaartinputen well se extrahéiert Parsingkaart benotzt.
Éischt Uerdnung Motioun
FOM ass en typesche Bildanimatiounsmodell. Et gouf op 256256 Biller trainéiert a funktionnéiert schlecht mat anere Bildgréissten. Als Konsequenz, Skala Fuerscher éischt Video Rummen op 256 * 256 fir FOM zu Animatioun an dann änneren d'Resultater op hir Originalgréisst Gréisst.
Fir e faire Verglach benotzt FOM den éischte stiliséierte Frame vu senger Approche als Referenzstilbild.
DaGAN
Et ass en 3D Gesiicht Animatioun Modell. Si benotzen déiselwecht Datepräparatioun a Postveraarbechtungsmethoden wéi FOM.
Virdeeler
- Et kann an der Konscht, soziale Medien Avataren, Filmer, Ënnerhalung Reklammen, a sou weider.
- Vtoonify kann och am Metaverse benotzt ginn.
Beschränkungen
- Dës Methodologie extrahéiert souwuel d'Donnéeën wéi och de Modell aus de StyleGAN-baséierte Réckgraten, wat zu Daten a Modellbias resultéiert.
- D'Artefakte si meeschtens duerch Gréisst Differenzen tëscht der stiliséierter Gesiichtsregioun an den anere Sektiounen verursaacht.
- Dës Strategie ass manner erfollegräich wann Dir mat Saachen an der Gesiichtsregioun handelt.
Konklusioun
Schlussendlech ass VToonify e Kader fir Stil-kontrolléiert High-Resolution Video Toonifikatioun.
Dëse Kader erreecht super Leeschtung beim Ëmgank mat Videoen an erméiglecht eng breet Kontroll iwwer de strukturelle Stil, Faarfstil, a Stilgrad andeems StyleGAN-baséiert Bildtoonifikatiounsmodeller a punkto hir Kondensatioun syntheteschen Daten an Netzwierkstrukturen.
Hannerlooss eng Äntwert