Vtoonify: Vezérelhető, nagy felbontású portré videostílus átvitel

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Vtoonify?
Hogyan működik?
A StyleGAN és a javasolt Vtoonify korlátai
A Vtoonify összehasonlítása más korszerű modellekkel+-
Előnyök+-
- korlátozások
Következtetés

A számítógépes látás és grafika területén döntő és kívánatos feladat a legmagasabb kaliberű kreatív portréfilmek készítése.

Bár számos hatékony modellt javasoltak a portréképek tonizálására a hatékony StyleGAN alapján, ezeknek a kép-orientált technikáknak egyértelmű hátrányai vannak videókkal történő használatkor, mint például a rögzített keretméret, az arckiigazítás követelménye, a nem arcrészletek hiánya. , és az időbeli következetlenség.

Egy forradalmi VToonify keretrendszert használnak a nehezen szabályozható, nagy felbontású portré videó stílus átvitelének kezelésére.

Ebben a cikkben megvizsgáljuk a VToonify legújabb tanulmányát, beleértve annak funkcionalitását, hátrányait és egyéb tényezőket.

Mi az a Vtoonify?

A VToonify keretrendszer lehetővé teszi a testreszabható, nagy felbontású portré videó stílusú átvitelt.

A VToonify a StyleGAN közepes és nagy felbontású rétegeit használja kiváló minőségű művészi portrék létrehozásához a kódoló által lekért többléptékű tartalomjellemzők alapján, hogy megőrizze a keret részleteit.

Az így létrejövő teljesen konvolúciós architektúra a változó méretű filmek nem igazított lapjait veszi be bemenetként, így az egész arc területeit valósághű mozgásokkal a kimenetben eredményezi.

Vtoonify

Ez a keretrendszer kompatibilis a jelenlegi StyleGAN-alapú képhangosítási modellekkel, lehetővé téve azok kiterjesztését a videó tonizálására, és olyan vonzó tulajdonságokat örököl, mint az állítható szín és intenzitás testreszabása.

Ezt tanulmány bemutatja a VToonify két példányát, amelyek Toonify és DualStyleGAN alapúak a gyűjtemény alapú, illetve a példa alapú portré videostílusok átviteléhez.

Kiterjedt kísérleti eredmények azt mutatják, hogy a javasolt VToonify keretrendszer felülmúlja a meglévő megközelítéseket a változó stílusparaméterekkel rendelkező, kiváló minőségű, időben koherens művészi portréfilmek készítésében.

A kutatók biztosítják a Google Colab jegyzetfüzet, így bepiszkolhatja a kezét.

Hogyan működik?

Az állítható, nagy felbontású portré videostílus átvitel érdekében a VToonify egyesíti a képfordítási keretrendszer előnyeit a StyleGAN-alapú keretrendszerrel.

Vtoonify működik

A változó bemeneti méretek befogadása érdekében a képfordító rendszer teljesen konvolúciós hálózatokat alkalmaz. A nulláról való edzés viszont lehetetlenné teszi a nagy felbontású és ellenőrzött stílusú átvitelt.

Az előre betanított StyleGAN modellt a StyleGAN-alapú keretrendszerben használják nagy felbontású és ellenőrzött stílusátvitelhez, bár a rögzített képméretre és részletveszteségre korlátozódik.

A StyleGAN módosult a hibrid keretrendszerben a rögzített méretű bemeneti funkció és az alacsony felbontású rétegek törlésével, ami a képfordító keretrendszeréhez hasonló, teljesen konvolúciós kódoló-generátor architektúrát eredményez.

A keret részleteinek megőrzéséhez tanítson be egy kódolót a bemeneti keret többléptékű tartalomjellemzőinek kinyerésére a generátor számára további tartalomkövetelményként. A Vtoonify örökli a StyleGAN modell stílusvezérlési rugalmasságát azáltal, hogy a generátorba helyezi az adatok és a modell desztillálásához.

A StyleGAN és a javasolt Vtoonify korlátai

A művészi portrék mindennapi életünkben, valamint a kreatív vállalkozásokban, például a művészetben, Közösségi média avatarok, filmek, szórakoztató reklámok és így tovább.

A fejlődésével mély tanulás technológiának köszönhetően ma már kiváló minőségű művészi portrékat lehet készíteni valós arcképekből az automatikus portréstílus-átvitel segítségével.

A képalapú stílusátvitelnek számos sikeres módja létezik, amelyek közül sok könnyen elérhető a kezdő felhasználók számára mobilalkalmazások formájában. A videoanyagok az elmúlt néhány évben gyorsan a közösségi média hírfolyamaink fő támaszává váltak.

A közösségi média és az efemer filmek térnyerése megnövelte az innovatív videószerkesztés iránti igényt, mint például a portrévideó stílusú átvitel, hogy sikeres és érdekes videókat készítsenek.

A létező kép-orientált technikáknak jelentős hátrányai vannak, ha filmekre alkalmazzák őket, és korlátozzák az automatizált portrévideók stilizálásában való hasznosságukat.

A StyleGAN a portré képstílusú átviteli modellek fejlesztésének általános gerince, mivel állítható stíluskezeléssel kiváló minőségű arcokat képes létrehozni.

A StyleGAN-alapú rendszer (más néven kép toonizálása) egy valódi arcot kódol a StyleGAN látens térbe, majd a kapott stíluskódot egy másik StyleGAN-re alkalmazza, amelyet a művészi portré adatkészleten finomítottak, hogy stilizált változatot hozzanak létre.

A StyleGAN igazított arcokkal és rögzített méretű képeket készít, ami nem részesíti előnyben a dinamikus arcokat a valós felvételeken. A videóban az arcok kivágása és igazítása néha részleges arcot és kínos gesztusokat eredményez. A kutatók ezt a problémát a StyleGAN „fix terméskorlátozásának” nevezik.

A nem igazított arcokhoz a StyleGAN3 javasolt; azonban csak egy beállított képméretet támogat.

Ezenkívül egy nemrégiben végzett tanulmány felfedezte, hogy a nem igazított arcok kódolása nagyobb kihívást jelent, mint az igazított arcok kódolása. A helytelen arckódolás káros a portréstílusok átvitelére, ami olyan problémákat okozhat, mint az identitás megváltozása és a rekonstruált és stílusos keretek hiányzó összetevői.

Amint már említettük, a portré videostílusú átvitel hatékony technikájának a következő problémákat kell kezelnie:

A valósághű mozgások megőrzése érdekében a megközelítésnek képesnek kell lennie az egyenetlen arcok és a különböző videoméretek kezelésére. A nagy videóméret vagy a széles látószög több információt rögzíthet, miközben megakadályozza, hogy az arc kimozduljon a keretből.
Ahhoz, hogy felvehessük a versenyt a manapság általánosan használt HD kütyükkel, nagy felbontású videóra van szükség.
Rugalmas stílusszabályozást kell kínálni a felhasználók számára, hogy módosítsák és válasszák a választásukat, amikor egy valósághű felhasználói interakciós rendszert fejlesztenek ki.

Ebből a célból a kutatók a VToonify-t, egy új hibrid keretrendszert javasolnak a videó toonizálására. A rögzített terméskorlátozás leküzdése érdekében a kutatók először a StyleGAN-ban tanulmányozták a fordítási egyenértékűséget.

A VToonify egyesíti a StyleGAN-alapú architektúra és a képfordítási keretrendszer előnyeit, hogy állítható, nagy felbontású portré videó stílus átvitelt érjen el.

A főbb hozzájárulások a következők:

A kutatók megvizsgálják a StyleGAN rögzített terméskorlátját, és a fordítási egyenértéken alapuló megoldást javasolnak.
A kutatók egy egyedülálló, teljesen konvolúciós VToonify keretrendszert mutatnak be a szabályozott, nagy felbontású portré videostílusú átvitelhez, amely támogatja a nem igazított arcokat és a különböző videoméreteket.
A kutatók a VToonify-t a Toonify és a DualStyleGAN gerincein építik fel, és a gerincet mind az adatok, mind a modell tekintetében sűrítik, hogy lehetővé tegyék a gyűjtemény- és a példaalapú portrévideó stílus átvitelét.

A Vtoonify összehasonlítása más korszerű modellekkel

Megkeményít

Alapjául szolgál a gyűjtemény alapú stílusátvitelhez az igazított arcokon a StyleGAN használatával. A stíluskódok lekéréséhez a kutatóknak össze kell igazítaniuk az arcokat, és ki kell vágniuk 256256 1024 fotót a PSP számára. A Toonify stilizált eredmény létrehozására szolgál 1024*XNUMX stíluskódokkal.

Végül visszaállítják a videóban szereplő eredményt az eredeti helyére. A stilizálatlan terület feketére lett állítva.

A Vtoonify összehasonlítása más korszerű modellekkel

DualStyleGAN

Ez a gerinc a StyleGAN alapú, példaértékű stílusátvitelhez. Ugyanazokat az adat-elő- és utófeldolgozási technikákat használják, mint a Toonify.

Pix2pixHD

Ez egy kép-kép fordítási modell, amelyet általában az előre betanított modellek tömörítésére használnak a nagy felbontású szerkesztéshez. Párosított adatok segítségével tanítják.

A kutatók a pix2pixHD-t használják további példányleképezési bemenetként, mivel kivont elemző térképet használ.

Elsőrendű indítvány

A FOM egy tipikus képanimációs modell. 256256 képre lett kiképezve, és más képméretekkel rosszul teljesít. Ennek eredményeként a kutatók először 256*256-ra méretezik a videókockákat a FOM animációhoz, majd az eredményeket átméretezik az eredeti méretükre.

Az igazságos összehasonlítás érdekében a FOM megközelítésének első stilizált keretét használja referenciastílus-képként.

DaGAN

Ez egy 3D arc-animációs modell. Ugyanazokat az adat-előkészítési és utófeldolgozási módszereket alkalmazzák, mint a FOM.

Összehasonlítás

Előnyök

Alkalmazható a művészetekben, közösségi média avatarokban, filmekben, szórakoztató hirdetésekben stb.
A Vtoonify a metaverzumban is használható.

korlátozások

Ez a módszertan mind az adatokat, mind a modellt kivonja a StyleGAN-alapú gerinchálózatból, ami adat- és modelleltolódást eredményez.
A leleteket leginkább a stilizált arcrész és a többi metszet közötti méretbeli eltérések okozzák.
Ez a stratégia kevésbé sikeres, ha az arc régióban lévő dolgokkal foglalkozunk.

Következtetés

Végül a VToonify egy keretrendszer a stílusvezérelt, nagy felbontású videó toonizálásához.

Ez a keretrendszer nagyszerű teljesítményt ér el a videók kezelésében, és lehetővé teszi a szerkezeti stílus, a színstílus és a stílusfok széles körű szabályozását a StyleGAN-alapú képtonifikációs modellek sűrítésével, mind azok tekintetében. szintetikus adatok és hálózati struktúrák.

Vtoonify: Vezérelhető, nagy felbontású portré videostílus átvitel

Mi az a Vtoonify?

Hogyan működik?

A StyleGAN és a javasolt Vtoonify korlátai