A számítógépes látás és grafika területén döntő és kívánatos feladat a legmagasabb kaliberű kreatív portréfilmek készítése.
Bár számos hatékony modellt javasoltak a portréképek tonizálására a hatékony StyleGAN alapján, ezeknek a kép-orientált technikáknak egyértelmű hátrányai vannak videókkal történő használatkor, mint például a rögzített keretméret, az arckiigazítás követelménye, a nem arcrészletek hiánya. , és az időbeli következetlenség.
Egy forradalmi VToonify keretrendszert használnak a nehezen szabályozható, nagy felbontású portré videó stílus átvitelének kezelésére.
Ebben a cikkben megvizsgáljuk a VToonify legújabb tanulmányát, beleértve annak funkcionalitását, hátrányait és egyéb tényezőket.
Mi az a Vtoonify?
A VToonify keretrendszer lehetővé teszi a testreszabható, nagy felbontású portré videó stílusú átvitelt.
A VToonify a StyleGAN közepes és nagy felbontású rétegeit használja kiváló minőségű művészi portrék létrehozásához a kódoló által lekért többléptékű tartalomjellemzők alapján, hogy megőrizze a keret részleteit.
Az így létrejövő teljesen konvolúciós architektúra a változó méretű filmek nem igazított lapjait veszi be bemenetként, így az egész arc területeit valósághű mozgásokkal a kimenetben eredményezi.
Ez a keretrendszer kompatibilis a jelenlegi StyleGAN-alapú képhangosítási modellekkel, lehetővé téve azok kiterjesztését a videó tonizálására, és olyan vonzó tulajdonságokat örököl, mint az állítható szín és intenzitás testreszabása.
Ezt tanulmány bemutatja a VToonify két példányát, amelyek Toonify és DualStyleGAN alapúak a gyűjtemény alapú, illetve a példa alapú portré videostílusok átviteléhez.
Kiterjedt kísérleti eredmények azt mutatják, hogy a javasolt VToonify keretrendszer felülmúlja a meglévő megközelítéseket a változó stílusparaméterekkel rendelkező, kiváló minőségű, időben koherens művészi portréfilmek készítésében.
A kutatók biztosítják a Google Colab jegyzetfüzet, így bepiszkolhatja a kezét.
Hogyan működik?
Az állítható, nagy felbontású portré videostílus átvitel érdekében a VToonify egyesíti a képfordítási keretrendszer előnyeit a StyleGAN-alapú keretrendszerrel.
A változó bemeneti méretek befogadása érdekében a képfordító rendszer teljesen konvolúciós hálózatokat alkalmaz. A nulláról való edzés viszont lehetetlenné teszi a nagy felbontású és ellenőrzött stílusú átvitelt.
Az előre betanított StyleGAN modellt a StyleGAN-alapú keretrendszerben használják nagy felbontású és ellenőrzött stílusátvitelhez, bár a rögzített képméretre és részletveszteségre korlátozódik.
A StyleGAN módosult a hibrid keretrendszerben a rögzített méretű bemeneti funkció és az alacsony felbontású rétegek törlésével, ami a képfordító keretrendszeréhez hasonló, teljesen konvolúciós kódoló-generátor architektúrát eredményez.
A keret részleteinek megőrzéséhez tanítson be egy kódolót a bemeneti keret többléptékű tartalomjellemzőinek kinyerésére a generátor számára további tartalomkövetelményként. A Vtoonify örökli a StyleGAN modell stílusvezérlési rugalmasságát azáltal, hogy a generátorba helyezi az adatok és a modell desztillálásához.
A StyleGAN és a javasolt Vtoonify korlátai
A művészi portrék mindennapi életünkben, valamint a kreatív vállalkozásokban, például a művészetben, Közösségi média avatarok, filmek, szórakoztató reklámok és így tovább.
A fejlődésével mély tanulás technológiának köszönhetően ma már kiváló minőségű művészi portrékat lehet készíteni valós arcképekből az automatikus portréstílus-átvitel segítségével.
A képalapú stílusátvitelnek számos sikeres módja létezik, amelyek közül sok könnyen elérhető a kezdő felhasználók számára mobilalkalmazások formájában. A videoanyagok az elmúlt néhány évben gyorsan a közösségi média hírfolyamaink fő támaszává váltak.
A közösségi média és az efemer filmek térnyerése megnövelte az innovatív videószerkesztés iránti igényt, mint például a portrévideó stílusú átvitel, hogy sikeres és érdekes videókat készítsenek.
A létező kép-orientált technikáknak jelentős hátrányai vannak, ha filmekre alkalmazzák őket, és korlátozzák az automatizált portrévideók stilizálásában való hasznosságukat.
A StyleGAN a portré képstílusú átviteli modellek fejlesztésének általános gerince, mivel állítható stíluskezeléssel kiváló minőségű arcokat képes létrehozni.
A StyleGAN-alapú rendszer (más néven kép toonizálása) egy valódi arcot kódol a StyleGAN látens térbe, majd a kapott stíluskódot egy másik StyleGAN-re alkalmazza, amelyet a művészi portré adatkészleten finomítottak, hogy stilizált változatot hozzanak létre.
A StyleGAN igazított arcokkal és rögzített méretű képeket készít, ami nem részesíti előnyben a dinamikus arcokat a valós felvételeken. A videóban az arcok kivágása és igazítása néha részleges arcot és kínos gesztusokat eredményez. A kutatók ezt a problémát a StyleGAN „fix terméskorlátozásának” nevezik.
A nem igazított arcokhoz a StyleGAN3 javasolt; azonban csak egy beállított képméretet támogat.
Ezenkívül egy nemrégiben végzett tanulmány felfedezte, hogy a nem igazított arcok kódolása nagyobb kihívást jelent, mint az igazított arcok kódolása. A helytelen arckódolás káros a portréstílusok átvitelére, ami olyan problémákat okozhat, mint az identitás megváltozása és a rekonstruált és stílusos keretek hiányzó összetevői.
Amint már említettük, a portré videostílusú átvitel hatékony technikájának a következő problémákat kell kezelnie:
- A valósághű mozgások megőrzése érdekében a megközelítésnek képesnek kell lennie az egyenetlen arcok és a különböző videoméretek kezelésére. A nagy videóméret vagy a széles látószög több információt rögzíthet, miközben megakadályozza, hogy az arc kimozduljon a keretből.
- Ahhoz, hogy felvehessük a versenyt a manapság általánosan használt HD kütyükkel, nagy felbontású videóra van szükség.
- Rugalmas stílusszabályozást kell kínálni a felhasználók számára, hogy módosítsák és válasszák a választásukat, amikor egy valósághű felhasználói interakciós rendszert fejlesztenek ki.
Ebből a célból a kutatók a VToonify-t, egy új hibrid keretrendszert javasolnak a videó toonizálására. A rögzített terméskorlátozás leküzdése érdekében a kutatók először a StyleGAN-ban tanulmányozták a fordítási egyenértékűséget.
A VToonify egyesíti a StyleGAN-alapú architektúra és a képfordítási keretrendszer előnyeit, hogy állítható, nagy felbontású portré videó stílus átvitelt érjen el.
A főbb hozzájárulások a következők:
- A kutatók megvizsgálják a StyleGAN rögzített terméskorlátját, és a fordítási egyenértéken alapuló megoldást javasolnak.
- A kutatók egy egyedülálló, teljesen konvolúciós VToonify keretrendszert mutatnak be a szabályozott, nagy felbontású portré videostílusú átvitelhez, amely támogatja a nem igazított arcokat és a különböző videoméreteket.
- A kutatók a VToonify-t a Toonify és a DualStyleGAN gerincein építik fel, és a gerincet mind az adatok, mind a modell tekintetében sűrítik, hogy lehetővé tegyék a gyűjtemény- és a példaalapú portrévideó stílus átvitelét.
A Vtoonify összehasonlítása más korszerű modellekkel
Megkeményít
Alapjául szolgál a gyűjtemény alapú stílusátvitelhez az igazított arcokon a StyleGAN használatával. A stíluskódok lekéréséhez a kutatóknak össze kell igazítaniuk az arcokat, és ki kell vágniuk 256256 1024 fotót a PSP számára. A Toonify stilizált eredmény létrehozására szolgál 1024*XNUMX stíluskódokkal.
Végül visszaállítják a videóban szereplő eredményt az eredeti helyére. A stilizálatlan terület feketére lett állítva.
DualStyleGAN
Ez a gerinc a StyleGAN alapú, példaértékű stílusátvitelhez. Ugyanazokat az adat-elő- és utófeldolgozási technikákat használják, mint a Toonify.
Pix2pixHD
Ez egy kép-kép fordítási modell, amelyet általában az előre betanított modellek tömörítésére használnak a nagy felbontású szerkesztéshez. Párosított adatok segítségével tanítják.
A kutatók a pix2pixHD-t használják további példányleképezési bemenetként, mivel kivont elemző térképet használ.
Elsőrendű indítvány
A FOM egy tipikus képanimációs modell. 256256 képre lett kiképezve, és más képméretekkel rosszul teljesít. Ennek eredményeként a kutatók először 256*256-ra méretezik a videókockákat a FOM animációhoz, majd az eredményeket átméretezik az eredeti méretükre.
Az igazságos összehasonlítás érdekében a FOM megközelítésének első stilizált keretét használja referenciastílus-képként.
DaGAN
Ez egy 3D arc-animációs modell. Ugyanazokat az adat-előkészítési és utófeldolgozási módszereket alkalmazzák, mint a FOM.
Előnyök
- Alkalmazható a művészetekben, közösségi média avatarokban, filmekben, szórakoztató hirdetésekben stb.
- A Vtoonify a metaverzumban is használható.
korlátozások
- Ez a módszertan mind az adatokat, mind a modellt kivonja a StyleGAN-alapú gerinchálózatból, ami adat- és modelleltolódást eredményez.
- A leleteket leginkább a stilizált arcrész és a többi metszet közötti méretbeli eltérések okozzák.
- Ez a stratégia kevésbé sikeres, ha az arc régióban lévő dolgokkal foglalkozunk.
Következtetés
Végül a VToonify egy keretrendszer a stílusvezérelt, nagy felbontású videó toonizálásához.
Ez a keretrendszer nagyszerű teljesítményt ér el a videók kezelésében, és lehetővé teszi a szerkezeti stílus, a színstílus és a stílusfok széles körű szabályozását a StyleGAN-alapú képtonifikációs modellek sűrítésével, mind azok tekintetében. szintetikus adatok és hálózati struktúrák.
Hagy egy Válaszol