Vtoonify: Ovládateľný prenos štýlu videa na výšku s vysokým rozlíšením

Obsah[Skryť][Šou]

Čo je Vtoonify?
Ako to funguje?
Obmedzenia StyleGAN & Proposed Vtoonify
Porovnanie Vtoonify s inými najmodernejšími modelmi+-
výhody+-
- Obmedzenia
záver

V počítačovom videní a grafike je kľúčovou a žiaducou úlohou vytvárať kreatívne portrétne filmy toho najvyššieho kalibru.

Aj keď bolo navrhnutých niekoľko efektívnych modelov pre tónovanie obrazu na výšku založených na účinnom StyleGAN, tieto techniky orientované na obraz majú pri použití s videami jasné nevýhody, ako je pevná veľkosť snímky, požiadavka na zarovnanie tváre, absencia netvárových detailov. a časová nesúlad.

Revolučný rámec VToonify sa používa na zvládnutie náročného kontrolovaného prenosu štýlu videa na výšku s vysokým rozlíšením.

V tomto článku preskúmame najnovšiu štúdiu o VToonify vrátane jej funkčnosti, nevýhod a ďalších faktorov.

Čo je Vtoonify?

Rámec VToonify umožňuje prispôsobiteľný prenos v štýle videa na výšku s vysokým rozlíšením.

VToonify používa vrstvy so stredným a vysokým rozlíšením StyleGAN na vytváranie vysokokvalitných umeleckých portrétov založených na charakteristikách obsahu vo viacerých mierkach získaných kódovačom, aby sa zachovali detaily snímky.

Výsledná plne konvolučná architektúra berie ako vstup nezarovnané tváre vo filmoch s premenlivou veľkosťou, výsledkom čoho sú oblasti celej tváre s realistickými pohybmi na výstupe.

Vtoonify

Tento rámec je kompatibilný so súčasnými modelmi tónovania obrazu založenými na StyleGAN, čo umožňuje ich rozšírenie na tónovanie videa a zdedí atraktívne vlastnosti, ako je prispôsobenie farby a intenzity.

Časť študovať predstavuje dve inštancie VToonify založené na Toonify a DualStyleGAN pre prenos štýlu videa na výšku založený na kolekcii a na príklade.

Rozsiahle experimentálne zistenia ukazujú, že navrhovaný rámec VToonify prekonáva existujúce prístupy pri vytváraní vysokokvalitných, časovo koherentných umeleckých portrétnych filmov s variabilnými parametrami štýlu.

Výskumníci poskytujú Zápisník Google Colab, takže si na ňom môžete zašpiniť ruky.

Ako to funguje?

Na dosiahnutie nastaviteľného prenosu štýlu videa na výšku s vysokým rozlíšením VToonify kombinuje výhody rámca na preklad obrázkov s rámcom založeným na StyleGAN.

Vtoonify funguje

Aby sa prispôsobili rôznym veľkostiam vstupov, systém prekladu obrázkov využíva plne konvolučné siete. Tréning od nuly na druhej strane znemožňuje prenos vo vysokom rozlíšení a riadený štýl.

Vopred trénovaný model StyleGAN sa používa v rámci založenom na StyleGAN na prenos štýlov s vysokým rozlíšením a riadený, hoci je obmedzený na pevnú veľkosť obrazu a straty detailov.

StyleGAN je upravený v hybridnom rámci odstránením jeho vstupnej funkcie s pevnou veľkosťou a vrstiev s nízkym rozlíšením, čo vedie k plne konvolučnej architektúre enkodéra a generátora podobnej architektúre rámca prekladu obrázkov.

Ak chcete zachovať podrobnosti rámca, natrénujte kódovač na extrahovanie charakteristík viacstupňového obsahu vstupného rámca ako dodatočnú požiadavku na obsah do generátora. Vtoonify zdedí flexibilitu ovládania štýlu modelu StyleGAN tým, že ho vloží do generátora na destiláciu údajov aj modelu.

Obmedzenia StyleGAN & Proposed Vtoonify

Umelecké portréty sú bežné v našom každodennom živote, ako aj v kreatívnych podnikoch, ako je umenie, sociálne médiá avatary, filmy, zábavné reklamy atď.

S rozvojom hlboké vzdelávanie vďaka technológii je teraz možné vytvárať vysokokvalitné umelecké portréty zo skutočných fotografií tvárí pomocou automatického prenosu štýlu portrétu.

Na prenos štýlov založených na obrázkoch sú vytvorené rôzne úspešné spôsoby, z ktorých mnohé sú ľahko dostupné pre začínajúcich používateľov vo forme mobilných aplikácií. Video materiál sa za posledných niekoľko rokov rýchlo stal základom našich sociálnych médií.

Vzostup sociálnych médií a efemérnych filmov zvýšil dopyt po inovatívnej úprave videa, ako je prenos štýlu videa na výšku, aby sa vytvorili úspešné a zaujímavé videá.

Existujúce techniky orientované na obrázky majú pri aplikácii na filmy značné nevýhody, čo obmedzuje ich užitočnosť pri automatizovanej štylizácii videa na výšku.

StyleGAN je bežnou oporou pre vývoj modelu prenosu štýlu obrázkov na výšku vďaka svojej schopnosti vytvárať vysokokvalitné tváre s nastaviteľnou správou štýlu.

Systém založený na StyleGAN (tiež známy ako toonifikácia obrazu) zakóduje skutočnú tvár do latentného priestoru StyleGAN a potom aplikuje výsledný kód štýlu na iný StyleGAN jemne vyladený na súbore údajov umeleckého portrétu, aby sa vytvorila štylizovaná verzia.

StyleGAN vytvára obrázky so zarovnanými tvárami a s pevnou veľkosťou, čo neuprednostňuje dynamické tváre v záberoch v reálnom svete. Orezanie a zarovnanie tváre vo videu niekedy vedie k čiastočnej tvári a nepohodlným gestám. Výskumníci tento problém nazývajú „obmedzenie fixných plodín“.

Pre nezarovnané plochy bol navrhnutý StyleGAN3; podporuje však iba nastavenú veľkosť obrazu.

Nedávna štúdia navyše zistila, že kódovanie nezarovnaných tvárí je náročnejšie ako zarovnané tváre. Nesprávne kódovanie tváre je škodlivé pre prenos štýlu na výšku, čo vedie k problémom, ako je zmena identity a chýbajúce komponenty v rekonštruovaných a štylizovaných rámoch.

Ako už bolo uvedené, efektívna technika prenosu štýlu videa na výšku musí zvládnuť nasledujúce problémy:

Ak chcete zachovať realistické pohyby, prístup musí byť schopný zvládnuť nezarovnané tváre a rôzne veľkosti videa. Veľká veľkosť videa alebo široký uhol záberu môžu zachytiť viac informácií a zároveň zabrániť tomu, aby sa tvár pohybovala mimo záber.
Aby ste mohli konkurovať dnes bežne používaným HD gadgetom, video vo vysokom rozlíšení je nevyhnutné.
Používateľom by sa malo ponúknuť flexibilné ovládanie štýlu, aby si mohli zmeniť a vybrať si svoj výber pri vývoji realistického systému interakcie s používateľom.

Na tento účel výskumníci navrhujú VToonify, nový hybridný rámec pre toonizáciu videa. Aby sa prekonalo pevné obmedzenie plodín, výskumníci najprv študovali ekvivarianciu prekladu v StyleGAN.

VToonify kombinuje výhody architektúry založenej na StyleGAN a rámca prekladu obrázkov na dosiahnutie nastaviteľného prenosu štýlu videa na výšku s vysokým rozlíšením.

Toto sú hlavné príspevky:

Výskumníci skúmajú obmedzenie pevnej plodiny StyleGAN a navrhujú riešenie založené na ekvivalentnosti prekladu.
Výskumníci predstavujú jedinečný plne konvolučný rámec VToonify na riadený prenos štýlu videa na výšku s vysokým rozlíšením, ktorý podporuje nezarovnané tváre a rôzne veľkosti videa.
Výskumníci konštruujú VToonify na chrbtici Toonify a DualStyleGAN a kondenzujú chrbticu z hľadiska údajov aj modelu, aby umožnili prenos štýlu videa na výšku založený na zbere a príkladoch.

Porovnanie Vtoonify s inými najmodernejšími modelmi

Toonify

Slúži ako základ pre prenos štýlov založený na kolekcii na zarovnaných plochách pomocou StyleGAN. Na získanie kódov štýlov musia výskumníci zarovnať tváre a orezať 256256 fotografií pre PSP. Toonify sa používa na generovanie štylizovaného výsledku s 1024*1024 štýlovými kódmi.

Nakoniec znova zarovnajú výsledok vo videu na pôvodné miesto. Neštylizovaná oblasť bola nastavená na čiernu.

Porovnanie Vtoonify s inými najmodernejšími modelmi

DualStyleGAN

Je to chrbtica pre prenos štýlov založených na príkladoch založených na StyleGAN. Používajú rovnaké techniky predbežného a následného spracovania údajov ako Toonify.

Pix2pixHD

Je to model prekladu z obrázka na obrázok, ktorý sa bežne používa na kondenzáciu vopred pripravených modelov na úpravu vo vysokom rozlíšení. Trénuje sa pomocou spárovaných dát.

Výskumníci využívajú pix2pixHD ako ďalšie vstupy pre inštanciu mapy, pretože používa extrahovanú analýzu analýzy.

Pohyb prvého rádu

FOM je typický model animácie obrázkov. Bol natrénovaný na 256256 obrázkoch a funguje zle s inými veľkosťami obrázkov. V dôsledku toho výskumníci najprv škálovali snímky videa na 256 * 256 pre FOM na animáciu a potom zmenili veľkosť výsledkov na ich pôvodnú veľkosť.

Pre spravodlivé porovnanie FOM používa prvý štylizovaný rámec svojho prístupu ako svoj referenčný štýlový obrázok.

DaGAN

Ide o 3D model animácie tváre. Používajú rovnaké metódy prípravy dát a postprocesingu ako FOM.

Porovnanie

výhody

Môže byť použitý v umení, avataroch sociálnych médií, filmoch, zábavnej reklame a tak ďalej.
Vtoonify je možné použiť aj v metaverse.

Obmedzenia

Táto metodika extrahuje údaje aj model z chrbticových sietí založených na StyleGAN, čo vedie k skresleniu údajov a modelu.
Artefakty sú spôsobené väčšinou rozdielmi vo veľkosti medzi štylizovanou oblasťou tváre a ostatnými časťami.
Táto stratégia je menej úspešná pri riešení vecí v oblasti tváre.

záver

Nakoniec, VToonify je rámec pre štýlovo riadenú toonizáciu videa s vysokým rozlíšením.

Tento rámec dosahuje skvelý výkon pri manipulácii s videami a umožňuje širokú kontrolu nad štrukturálnym štýlom, farebným štýlom a stupňom štýlu kondenzáciou modelov tónovania obrazu založených na StyleGAN z hľadiska oboch syntetické údaje a sieťové štruktúry.

Vtoonify: Ovládateľný prenos štýlu videa na výšku s vysokým rozlíšením

Čo je Vtoonify?

Ako to funguje?

Obmedzenia StyleGAN & Proposed Vtoonify