Vtoonify: ovladatelný přenos stylu videa na výšku ve vysokém rozlišení

Obsah[Skrýt][Ukázat]

Co je Vtoonify?
Jak to funguje?
Omezení StyleGAN & Proposed Vtoonify
Porovnání Vtoonify s jinými nejmodernějšími modely+-
Výhody+-
- Omezení
Proč investovat do čističky vzduchu?

V počítačovém vidění a grafice je zásadním a žádoucím úkolem vytvářet kreativní portrétní filmy nejvyšší kvality.

Přestože bylo navrženo několik účinných modelů pro tónování obrazu na výšku založené na silném StyleGAN, tyto obrazově orientované techniky mají při použití s videi jasné nevýhody, jako je pevná velikost snímku, požadavek na zarovnání obličeje, absence detailů, které nejsou na obličeji. a časový nesoulad.

Revoluční rámec VToonify se používá k řešení obtížného řízeného přenosu stylu videa na výšku s vysokým rozlišením.

V tomto článku prozkoumáme nejnovější studii o VToonify, včetně její funkčnosti, nevýhod a dalších faktorů.

Co je Vtoonify?

Rámec VToonify umožňuje přizpůsobitelný přenos ve vysokém rozlišení ve stylu videa na výšku.

VToonify využívá vrstvy se středním a vysokým rozlišením StyleGAN k vytváření vysoce kvalitních uměleckých portrétů založených na charakteristikách obsahu ve více měřítcích načtených kodérem pro zachování detailů snímku.

Výsledná plně konvoluční architektura přijímá nezarovnané tváře ve filmech s proměnlivou velikostí jako vstup, což vede k oblastem celé tváře s realistickými pohyby na výstupu.

Vtoonify

Tento rámec je kompatibilní se současnými modely toonifikace obrazu založenými na StyleGAN, což umožňuje jejich rozšíření na toonizaci videa a zdědí atraktivní vlastnosti, jako je přizpůsobení barvy a intenzity.

Tento studovat představuje dvě instance VToonify založené na Toonify a DualStyleGAN pro přenos stylu videa na výšku založený na kolekcích a na příkladech.

Rozsáhlá experimentální zjištění ukazují, že navrhovaný rámec VToonify překonává stávající přístupy při vytváření vysoce kvalitních, časově soudržných uměleckých portrétních filmů s proměnlivými stylovými parametry.

Výzkumníci poskytují Zápisník Google Colab, takže si na něm můžete ušpinit ruce.

Jak to funguje?

Pro dosažení nastavitelného přenosu stylu videa na výšku s vysokým rozlišením kombinuje VToonify výhody rámce pro překlad obrázků s rámcem založeným na StyleGAN.

Vtoonify funguje

Aby se přizpůsobil různým vstupním velikostem, systém překladu obrázků využívá plně konvoluční sítě. Trénink od nuly na druhou stranu znemožňuje přenos ve vysokém rozlišení a kontrolovaném stylu.

Předtrénovaný model StyleGAN se používá v rámci založeném na StyleGAN pro přenos stylu s vysokým rozlišením a řízeným přenosem, i když je omezen na pevnou velikost obrazu a ztráty detailů.

StyleGAN je v hybridním rámci upraven odstraněním jeho vstupní funkce s pevnou velikostí a vrstev s nízkým rozlišením, což vede k plně konvoluční architektuře kodéru-generátoru podobné architektuře rámce pro překlad obrázků.

Chcete-li zachovat podrobnosti rámce, vycvičte kodér, aby extrahoval víceúrovňové obsahové charakteristiky vstupního rámce jako další požadavek na obsah do generátoru. Vtoonify zdědí flexibilitu ovládání stylu modelu StyleGAN tím, že jej vloží do generátoru pro destilaci dat i modelu.

Omezení StyleGAN & Proposed Vtoonify

Umělecké portréty jsou běžné v našem každodenním životě, stejně jako v kreativních podnicích, jako je umění, sociální média avatary, filmy, zábavní reklama a tak dále.

S rozvojem hluboké učení technologie je nyní možné vytvářet vysoce kvalitní umělecké portréty ze skutečných fotografií obličejů pomocí automatického přenosu stylu portrétu.

Existuje celá řada úspěšných způsobů vytvořených pro přenos stylů založených na obrázcích, z nichž mnohé jsou snadno dostupné začínajícím uživatelům ve formě mobilních aplikací. Video materiál se v posledních několika letech rychle stal hlavním pilířem našich sociálních médií.

Vzestup sociálních médií a pomíjivých filmů zvýšil poptávku po inovativní úpravě videa, jako je přenos stylu videa na výšku, aby se vytvořila úspěšná a zajímavá videa.

Stávající obrazově orientované techniky mají při aplikaci na filmy značné nevýhody, které omezují jejich použitelnost při automatizované stylizaci portrétního videa.

StyleGAN je běžnou páteří pro vývoj modelu přenosu stylu obrázku na výšku díky své schopnosti vytvářet vysoce kvalitní obličeje s nastavitelným řízením stylu.

Systém založený na StyleGAN (také známý jako toonifikace obrazu) zakóduje skutečnou tvář do latentního prostoru StyleGAN a poté aplikuje výsledný kód stylu na jiný styl StyleGAN doladěný na datové sadě uměleckého portrétu za účelem vytvoření stylizované verze.

StyleGAN vytváří obrázky se zarovnanými obličeji a v pevné velikosti, což neupřednostňuje dynamické obličeje v záběrech z reálného světa. Oříznutí a zarovnání obličeje ve videu někdy vede k částečnému obličeji a nepohodlným gestům. Výzkumníci tento problém nazývají „omezením fixních plodin“.

Pro nezarovnané plochy byl navržen StyleGAN3; podporuje však pouze nastavenou velikost obrazu.

Nedávná studie navíc zjistila, že kódování nezarovnaných tváří je náročnější než zarovnaných tváří. Nesprávné kódování obličeje je škodlivé pro přenos stylu na výšku, což má za následek problémy, jako je změna identity a chybějící komponenty v rekonstruovaných a stylizovaných snímcích.

Jak již bylo zmíněno, účinná technika pro přenos stylu videa na výšku musí zvládnout následující problémy:

Aby byly zachovány realistické pohyby, přístup musí být schopen vypořádat se s nezarovnanými obličeji a různými velikostmi videa. Velká velikost videa nebo široký úhel záběru mohou zachytit více informací a zároveň zabránit tomu, aby se obličej pohyboval mimo záběr.
Aby bylo možné konkurovat dnes běžně používaným HD gadgetům, je nutné video ve vysokém rozlišení.
Uživatelům by měla být nabídnuta flexibilní kontrola stylu, aby si ji mohli změnit a vybrat si při vývoji realistického systému interakce s uživatelem.

Za tímto účelem vědci navrhují VToonify, nový hybridní rámec pro toonifikace videa. Aby se překonalo pevné omezení plodin, vědci nejprve studovali ekvivarianci překladu ve StyleGAN.

VToonify kombinuje výhody architektury založené na StyleGAN a rámce pro překlad obrázků k dosažení nastavitelného přenosu stylu videa na výšku s vysokým rozlišením.

Následují hlavní příspěvky:

Výzkumníci zkoumají omezení StyleGAN s pevnou plodinou a navrhují řešení založené na ekvivarianci překladu.
Výzkumníci představují jedinečný plně konvoluční rámec VToonify pro řízený přenos stylu videa na výšku s vysokým rozlišením, který podporuje nezarovnané tváře a různé velikosti videa.
Výzkumníci konstruují VToonify na páteřích Toonify a DualStyleGAN a zhušťují páteře, pokud jde o data i model, aby umožnili přenos stylu videa na výšku založený na kolekcích a na příkladech.

Porovnání Vtoonify s jinými nejmodernějšími modely

Toonify

Slouží jako základ pro přenos stylů založený na kolekcích na zarovnaných plochách pomocí StyleGAN. Aby bylo možné získat kódy stylů, musí výzkumníci zarovnat obličeje a oříznout 256256 fotografií pro PSP. Toonify se používá ke generování stylizovaného výsledku s 1024*1024 stylovými kódy.

Nakonec znovu zarovnají výsledek ve videu do původního umístění. Nestylizovaná oblast byla nastavena na černou.

Porovnání Vtoonify s jinými nejmodernějšími modely

DualStyleGAN

Jedná se o páteř pro přenos stylů založený na příkladech založených na StyleGAN. Používají stejné techniky předběžného a následného zpracování dat jako Toonify.

Pix2pixHD

Je to model překladu z obrázku na obrázek, který se běžně používá ke zhuštění předem připravených modelů pro úpravy ve vysokém rozlišení. Trénuje se pomocí spárovaných dat.

Výzkumníci využívají pix2pixHD jako své další instanční mapové vstupy, protože používá extrahovanou analýzu analýzy.

Pohyb prvního řádu

FOM je typický model animace obrazu. Byl natrénován na 256256 obrázcích a funguje špatně s jinými velikostmi obrázků. V důsledku toho vědci nejprve měří snímky videa na 256*256 pro FOM na animaci a poté změní velikost výsledků na jejich původní velikost.

Pro spravedlivé srovnání používá FOM jako svůj referenční stylový obrázek první stylizovaný rámec svého přístupu.

DaGAN

Jedná se o 3D model animace obličeje. Používají stejné metody přípravy dat a následného zpracování jako FOM.

Srovnání

Výhody

Může být použit v umění, avatarech sociálních médií, filmech, zábavní reklamě a tak dále.
Vtoonify lze také použít v metaverse.

Omezení

Tato metodika extrahuje jak data, tak model z páteřních sítí založených na StyleGAN, což má za následek zkreslení dat a modelu.
Artefakty jsou způsobeny většinou velikostními rozdíly mezi stylizovanou oblastí obličeje a ostatními sekcemi.
Tato strategie je méně úspěšná při řešení věcí v oblasti tváře.

Proč investovat do čističky vzduchu?

A konečně, VToonify je framework pro stylově řízenou toonizaci videa s vysokým rozlišením.

Tento rámec dosahuje skvělého výkonu při manipulaci s videi a umožňuje širokou kontrolu nad strukturálním stylem, barevným stylem a stupněm stylu zhuštěním modelů toonifikace obrazu založených na StyleGAN, pokud jde o jejich syntetická data a síťové struktury.

Vtoonify: ovladatelný přenos stylu videa na výšku s vysokým rozlišením

Co je Vtoonify?

Jak to funguje?

Omezení StyleGAN & Proposed Vtoonify