Det är en avgörande och önskvärd uppgift inom datorseende och grafik att producera kreativa porträttfilmer av högsta kaliber.
Även om flera effektiva modeller för porträttbildvisning baserade på den potenta StyleGAN har föreslagits, har dessa bildorienterade tekniker tydliga nackdelar när de används med videor, såsom den fasta ramstorleken, kravet på ansiktsjustering, frånvaron av icke-ansiktsdetaljer och tidsmässig inkonsekvens.
Ett revolutionerande VToonify-ramverk används för att ta itu med den svåra kontrollerade högupplösta överföringen av porträttvideo.
Vi kommer att undersöka den senaste studien om VToonify i den här artikeln, inklusive dess funktionalitet, nackdelar och andra faktorer.
Vad är Vtoonify?
VToonify-ramverket möjliggör anpassningsbar högupplöst porträttvideosändning.
VToonify använder StyleGAN:s mellan- och högupplösta lager för att skapa högkvalitativa konstnärliga porträtt baserade på flerskaliga innehållsegenskaper hämtade av en kodare för att behålla ramdetaljer.
Den resulterande helt faltande arkitekturen tar icke-justerade ansikten i filmer med variabel storlek som indata, vilket resulterar i hela ansiktsregioner med realistiska rörelser i utdata.
Detta ramverk är kompatibelt med nuvarande StyleGAN-baserade bildvisningsmodeller, vilket gör att de kan utökas till videovisning och ärver attraktiva egenskaper som justerbar färg och intensitetsanpassning.
Denna studera introducerar två instansieringar av VToonify baserat på Toonify och DualStyleGAN för samlingsbaserad respektive exemplarbaserad porträttvideostilsöverföring.
Omfattande experimentella rön visar att det föreslagna VToonify-ramverket överträffar befintliga metoder för att göra högkvalitativa, tidsmässigt sammanhängande konstnärliga porträttfilmer med varierande stilparametrar.
Forskare tillhandahåller Google Colab-anteckningsbok, så att du kan smutsa ner händerna på den.
Hur fungerar det?
För att åstadkomma justerbar högupplöst porträttvideostilsöverföring, kombinerar VToonify fördelarna med bildöversättningsramverket med det StyleGAN-baserade ramverket.
För att tillgodose olika inmatningsstorlekar använder bildöversättningssystemet helt konvolutionerande nätverk. Träning från grunden, å andra sidan, gör högupplöst och kontrollerad stilöverföring omöjlig.
Den förtränade StyleGAN-modellen används i det StyleGAN-baserade ramverket för högupplöst och kontrollerad stilöverföring, även om den är begränsad till fast bildstorlek och detaljförluster.
StyleGAN modifieras i hybridramverket genom att ta bort dess inmatningsfunktion med fast storlek och lågupplösta lager, vilket resulterar i en helt konvolutionell kodargeneratorarkitektur som liknar den för bildöversättningsramverket.
För att upprätthålla ramdetaljer, träna en kodare att extrahera flerskaliga innehållsegenskaper för inmatningsramen som ett ytterligare innehållskrav för generatorn. Vtoonify ärver StyleGAN-modellens stilkontrollflexibilitet genom att lägga in den i generatorn för att destillera både dess data och modell.
Begränsningar för StyleGAN & Proposed Vtoonify
Konstnärliga porträtt är vanliga i våra dagliga liv såväl som i kreativa verksamheter som konst, sociala medier avatarer, filmer, underhållningsreklam och så vidare.
Med utvecklingen av djupt lärande teknik är det nu möjligt att skapa högkvalitativa konstnärliga porträtt från verkliga ansiktsfoton med hjälp av automatisk porträttöverföring.
Det finns en mängd framgångsrika sätt skapade för bildbaserad stilöverföring, varav många är lättillgängliga för nybörjaranvändare i form av mobilapplikationer. Videomaterial har snabbt blivit en stöttepelare i våra sociala medier under de senaste åren.
Framväxten av sociala medier och tillfälliga filmer har ökat efterfrågan på innovativ videoredigering, som överföring av porträttvideo, för att skapa framgångsrika och intressanta videor.
Befintliga bildorienterade tekniker har betydande nackdelar när de tillämpas på filmer, vilket begränsar deras användbarhet vid automatiserad porträttvideostilisering.
StyleGAN är en vanlig ryggrad för att utveckla en porträttbildstilsöverföringsmodell på grund av dess förmåga att skapa högkvalitativa ansikten med justerbar stilhantering.
Ett StyleGAN-baserat system (även känt som bildvisning) kodar in ett verkligt ansikte i StyleGANs latenta utrymme och applicerar sedan den resulterande stilkoden på en annan StyleGAN finjusterad på den konstnärliga porträttdatauppsättningen för att skapa en stiliserad version.
StyleGAN skapar bilder med riktade ansikten och med en fast storlek, vilket inte gynnar dynamiska ansikten i verkliga bilder. Ansiktsbeskärning och justering i videon resulterar ibland i ett partiellt ansikte och obekväma gester. Forskare kallar den här frågan StyleGAN:s "begränsning av fasta grödor."
För ojusterade ansikten har StyleGAN3 föreslagits; dock stöder den bara en inställd bildstorlek.
Dessutom upptäckte en ny studie att kodning av ojusterade ansikten är mer utmanande än justerade ansikten. Felaktig ansiktskodning är skadlig för överföring av porträttstil, vilket resulterar i problem som identitetsändring och saknade komponenter i de rekonstruerade och formaterade ramarna.
Som diskuterats måste en effektiv teknik för överföring av porträttvideostil hantera följande problem:
- För att bevara realistiska rörelser måste tillvägagångssättet kunna hantera ojusterade ansikten och varierande videostorlekar. En stor videostorlek eller en vid synvinkel kan fånga mer information samtidigt som ansiktet inte rör sig utanför bildrutan.
- För att konkurrera med dagens vanliga HD-prylar är högupplöst video nödvändigt.
- Flexibel stilkontroll bör erbjudas för användare att ändra och välja sina val när de utvecklar ett realistiskt användarinteraktionssystem.
För det ändamålet föreslår forskare VToonify, ett nytt hybridramverk för videoshowering. För att övervinna den fasta begränsningen av skörden studerar forskarna först översättningsekvivarians i StyleGAN.
VToonify kombinerar fördelarna med den StyleGAN-baserade arkitekturen och bildöversättningsramverket för att uppnå justerbar högupplöst porträttvideostilsöverföring.
Följande är de viktigaste bidragen:
- Forskare undersöker StyleGAN:s begränsning av fasta grödor och föreslår en lösning baserad på översättningsekvivarians.
- Forskare presenterar ett unikt helt konvolutionerande VToonify-ramverk för kontrollerad högupplöst porträttvideostilsöverföring som stöder ojusterade ansikten och olika videostorlekar.
- Forskare konstruerar VToonify på ryggraden i Toonify och DualStyleGAN och kondenserar ryggraden i termer av både data och modell för att möjliggöra samlingsbaserad och exemplarbaserad överföring av porträttvideostil.
Jämför Vtoonify med andra toppmoderna modeller
Toonify
Den fungerar som grunden för samlingsbaserad stilöverföring på riktade ansikten med StyleGAN. För att hämta stilkoderna måste forskare rikta ansikten och beskära 256256 foton för PSP. Toonify används för att generera ett stiliserat resultat med 1024*1024 stilkoder.
Slutligen justerar de om resultatet i videon till dess ursprungliga plats. Det ostiliserade området har satts till svart.
DualStyleGAN
Det är en ryggrad för exemplarbaserad stilöverföring baserad på StyleGAN. De använder samma dataför- och efterbearbetningstekniker som Toonify.
Pix2pixHD
Det är en bild-till-bild översättningsmodell som vanligtvis används för att kondensera förtränade modeller för högupplöst redigering. Den tränas med hjälp av parad data.
Forskare använder pix2pixHD som sin extra instanskarta eftersom den använder extraherad analyskarta.
First Order Motion
FOM är en typisk bildanimationsmodell. Den har tränats på 256256 bilder och fungerar dåligt med andra bildstorlekar. Som en konsekvens skalar forskare först videobildrutorna till 256*256 för FOM till animering och ändrar sedan storleken på resultaten till deras ursprungliga storlek.
För en rättvis jämförelse använder FOM den första stiliserade ramen i sitt tillvägagångssätt som sin referensstilsbild.
DaGAN
Det är en ansiktsanimationsmodell i 3D. De använder samma databerednings- och efterbearbetningsmetoder som FOM.
Fördelar
- Det kan användas inom konst, avatarer på sociala medier, filmer, underhållningsreklam och så vidare.
- Vtoonify kan också användas i metaversen.
Begränsningar
- Denna metod extraherar både data och modell från StyleGAN-baserade ryggraden, vilket resulterar i data- och modellbias.
- Artefakterna orsakas mestadels av storleksskillnader mellan den stiliserade ansiktsregionen och de andra sektionerna.
- Denna strategi är mindre framgångsrik när man hanterar saker i ansiktsregionen.
Slutsats
Slutligen, VToonify är ett ramverk för stilstyrd högupplöst videoshowering.
Detta ramverk uppnår utmärkta prestanda vid hantering av videor och möjliggör bred kontroll över den strukturella stilen, färgstilen och stilgraden genom att kondensera StyleGAN-baserade bildtonifieringsmodeller när det gäller både deras syntetiska data och nätverksstrukturer.
Kommentera uppropet