Het is een cruciale en wenselijke taak in computervisie en grafische afbeeldingen om creatieve portretfilms van het hoogste kaliber te produceren.
Hoewel verschillende effectieve modellen voor het tonen van portretafbeeldingen zijn voorgesteld op basis van de krachtige StyleGAN, hebben deze beeldgeoriënteerde technieken duidelijke nadelen bij gebruik met video's, zoals de vaste framegrootte, de vereiste voor gezichtsuitlijning, de afwezigheid van niet-gezichtsdetails en temporele inconsistentie.
Een revolutionair VToonify-framework wordt gebruikt om de moeilijke gecontroleerde overdracht van portretvideo-stijl met hoge resolutie aan te pakken.
We zullen de meest recente studie over VToonify in dit artikel onderzoeken, inclusief de functionaliteit, nadelen en andere factoren.
Wat is Vtoonify?
VToonify-framework zorgt voor aanpasbare transmissie in portretvideostijl met hoge resolutie.
VToonify gebruikt StyleGAN's midden- en hoge-resolutielagen om artistieke portretten van hoge kwaliteit te maken op basis van inhoudskenmerken op meerdere schalen die worden opgehaald door een encoder om framedetails te behouden.
De resulterende volledig convolutionele architectuur neemt niet-uitgelijnde gezichten in films van variabele grootte als invoer, wat resulteert in gebieden over het hele gezicht met realistische bewegingen in de uitvoer.
Dit framework is compatibel met de huidige StyleGAN-gebaseerde beeldtoonificatiemodellen, waardoor ze kunnen worden uitgebreid tot videotoonificatie, en erft aantrekkelijke kenmerken zoals instelbare kleur- en intensiteitaanpassing.
Deze studies introduceert twee instantiaties van VToonify op basis van Toonify en DualStyleGAN voor respectievelijk op collecties gebaseerde en op voorbeelden gebaseerde portretvideostijloverdracht.
Uitgebreide experimentele bevindingen tonen aan dat het voorgestelde VToonify-raamwerk beter presteert dan bestaande benaderingen bij het maken van hoogwaardige, tijdelijk coherente artistieke portretfilms met variabele stijlparameters.
Onderzoekers bieden de Google Colab-notebook, zodat u er uw handen aan vuil kunt maken.
Hoe werkt het?
Om aanpasbare overdracht van portretvideostijl met hoge resolutie te bereiken, combineert VToonify de voordelen van het beeldvertalingsframework met het op StyleGAN gebaseerde framework.
Om verschillende invoerformaten te accommoderen, maakt het beeldvertaalsysteem gebruik van volledig convolutionele netwerken. Aan de andere kant maakt training vanaf het begin een hoge resolutie en gecontroleerde stijloverdracht onmogelijk.
Het vooraf getrainde StyleGAN-model wordt gebruikt in het op StyleGAN gebaseerde framework voor hoge resolutie en gecontroleerde stijloverdracht, hoewel het beperkt is tot vaste beeldgrootte en detailverlies.
StyleGAN is aangepast in het hybride raamwerk door de invoerfunctie met vaste grootte en lagen met lage resolutie te verwijderen, wat resulteert in een volledig convolutionele encoder-generatorarchitectuur die vergelijkbaar is met die van het beeldvertalingsraamwerk.
Om framedetails te behouden, traint u een encoder om inhoudskenmerken op meerdere schalen van het invoerframe te extraheren als aanvullende inhoudsvereiste voor de generator. Vtoonify erft de stijlcontroleflexibiliteit van het StyleGAN-model door het in de generator te plaatsen om zowel de gegevens als het model te distilleren.
Beperkingen van StyleGAN en voorgestelde Vtoonify
Artistieke portretten komen zowel in ons dagelijks leven als in creatieve bedrijven zoals kunst, social media avatars, films, entertainmentreclame, enzovoort.
Met de ontwikkeling van diepgaand leren technologie, is het nu mogelijk om artistieke portretten van hoge kwaliteit te maken van echte gezichtsfoto's met behulp van geautomatiseerde overdracht van portretstijlen.
Er zijn verschillende succesvolle manieren gecreëerd voor op afbeeldingen gebaseerde stijloverdracht, waarvan vele gemakkelijk toegankelijk zijn voor beginnende gebruikers in de vorm van mobiele applicaties. Videomateriaal is de afgelopen jaren snel een steunpilaar geworden van onze feeds op sociale media.
De opkomst van sociale media en kortstondige films heeft de vraag naar innovatieve videobewerking, zoals overdracht van portretvideostijl, vergroot om succesvolle en interessante video's te genereren.
Bestaande beeldgeoriënteerde technieken hebben aanzienlijke nadelen wanneer ze worden toegepast op films, waardoor hun bruikbaarheid bij geautomatiseerde stilering van portretvideo's wordt beperkt.
StyleGAN is een veelgebruikte ruggengraat voor het ontwikkelen van een portretmodel voor het overbrengen van beeldstijlen vanwege het vermogen om gezichten van hoge kwaliteit te creëren met aanpasbaar stijlbeheer.
Een op StyleGAN gebaseerd systeem (ook bekend als beeldtoonificatie) codeert een echt gezicht in de latente ruimte van StyleGAN en past de resulterende stijlcode vervolgens toe op een andere StyleGAN die is verfijnd op de artistieke portretgegevensset om een gestileerde versie te creëren.
StyleGAN maakt foto's met uitgelijnde gezichten en met een vaste grootte, wat niet de voorkeur geeft aan dynamische gezichten in beelden uit de echte wereld. Het bijsnijden en uitlijnen van gezichten in de video resulteert soms in een gedeeltelijk gezicht en onhandige gebaren. Onderzoekers noemen dit probleem de 'vaste gewasbeperking' van StyleGAN.
Voor niet-uitgelijnde gezichten is StyleGAN3 voorgesteld; het ondersteunt echter alleen een ingesteld beeldformaat.
Bovendien ontdekte een recente studie dat het coderen van niet-uitgelijnde gezichten een grotere uitdaging is dan uitgelijnde gezichten. Onjuiste gezichtscodering is schadelijk voor de overdracht van portretstijlen, wat resulteert in problemen zoals identiteitsverandering en ontbrekende componenten in de gereconstrueerde en gestileerde frames.
Zoals besproken, moet een efficiënte techniek voor overdracht van portretvideostijl de volgende problemen oplossen:
- Om realistische bewegingen te behouden, moet de aanpak kunnen omgaan met niet-uitgelijnde gezichten en verschillende videoformaten. Een groot videoformaat of een brede kijkhoek kan meer informatie vastleggen terwijl het gezicht niet buiten beeld beweegt.
- Om te kunnen concurreren met de tegenwoordig veelgebruikte HD-gadgets, is video met een hoge resolutie noodzakelijk.
- Flexibele stijlcontrole moet worden aangeboden aan gebruikers om hun keuze te wijzigen en te kiezen bij het ontwikkelen van een realistisch gebruikersinteractiesysteem.
Daartoe stellen onderzoekers VToonify voor, een nieuw hybride raamwerk voor video-toonificatie. Om de vaste gewasbeperking te overwinnen, bestuderen onderzoekers eerst vertaalequivariantie in StyleGAN.
VToonify combineert de voordelen van de op StyleGAN gebaseerde architectuur en het beeldvertalingsframework om een aanpasbare overdracht van portretvideostijl met hoge resolutie te bereiken.
Dit zijn de belangrijkste bijdragen:
- Onderzoekers onderzoeken StyleGAN's vaste gewasbeperking en stellen een oplossing voor op basis van vertaalequivariantie.
- Onderzoekers presenteren een uniek volledig convolutief VToonify-framework voor gecontroleerde overdracht van portretvideostijlen met hoge resolutie dat niet-uitgelijnde gezichten en verschillende videoformaten ondersteunt.
- Onderzoekers bouwen VToonify op de ruggengraat van Toonify en DualStyleGAN en condenseren de ruggengraat in termen van zowel gegevens als model om op collecties gebaseerde en op voorbeelden gebaseerde overdracht van portretvideostijlen mogelijk te maken.
Vtoonify vergelijken met andere ultramoderne modellen
Toonify
Het dient als basis voor op collecties gebaseerde stijloverdracht op uitgelijnde gezichten met behulp van StyleGAN. Om de stijlcodes op te halen, moeten onderzoekers gezichten uitlijnen en 256256 foto's bijsnijden voor PSP. Toonify wordt gebruikt om een gestileerd resultaat te genereren met 1024*1024 stijlcodes.
Ten slotte stemmen ze het resultaat in de video opnieuw af op de oorspronkelijke locatie. Het niet-gestileerde gebied is op zwart gezet.
DualStyleGAN
Het is een ruggengraat voor op voorbeelden gebaseerde stijloverdracht op basis van StyleGAN. Ze gebruiken dezelfde voor- en nabewerkingstechnieken voor gegevens als Toonify.
Pix2pixHD
Het is een beeld-naar-beeld vertaalmodel dat vaak wordt gebruikt om vooraf getrainde modellen te condenseren voor bewerking met hoge resolutie. Het wordt getraind met behulp van gepaarde gegevens.
Onderzoekers gebruiken pix2pixHD als aanvullende instantiekaartinvoer, omdat het een geëxtraheerde parseringskaart gebruikt.
Eerste bestelling beweging
FOM is een typisch beeldanimatiemodel. Het is getraind op 256256 foto's en presteert slecht met andere afbeeldingsformaten. Dientengevolge schalen onderzoekers de videoframes eerst naar 256 * 256 voor FOM naar animatie en wijzigen ze vervolgens de resultaten naar hun oorspronkelijke grootte.
Voor een eerlijke vergelijking gebruikt FOM het eerste gestileerde frame van zijn aanpak als referentiestijlbeeld.
DaGAN
Het is een 3D-gezichtsanimatiemodel. Ze gebruiken dezelfde datavoorbereidings- en nabewerkingsmethoden als FOM.
voordelen
- Het kan worden gebruikt in de kunsten, avatars op sociale media, films, entertainmentreclame, enzovoort.
- Vtoonify kan ook worden gebruikt in de metaverse.
Beperkingen
- Deze methodologie extraheert zowel de data als het model uit de op StyleGAN gebaseerde backbones, wat resulteert in data- en modelbias.
- De artefacten worden meestal veroorzaakt door verschillen in grootte tussen het gestileerde gezichtsgebied en de andere secties.
- Deze strategie is minder succesvol bij het omgaan met dingen in de gezichtsregio.
Conclusie
Ten slotte is VToonify een raamwerk voor stijlgestuurde video-toonificatie met hoge resolutie.
Dit raamwerk levert geweldige prestaties bij het verwerken van video's en maakt brede controle over de structurele stijl, kleurstijl en stijlgraad mogelijk door op StyleGAN gebaseerde beeldtoonificatiemodellen te condenseren in termen van zowel hun synthetische gegevens en netwerkstructuren.
Laat een reactie achter