Vtoonify: Beheerbare hoë-resolusie portretvideostyloordrag

INHOUDSOPGAWE[Versteek][Wys]

Wat is Vtoonify?
Hoe werk dit?
Beperkings van StyleGAN & Voorgestelde Vtoonify
Vergelyk Vtoonify met ander moderne modelle+-
voordele+-
- Beperkings
Gevolgtrekking

Dit is 'n deurslaggewende en wenslike taak in rekenaarvisie en grafika om kreatiewe portretfilms van die hoogste kaliber te vervaardig.

Alhoewel verskeie effektiewe modelle vir portretbeeldvertoning gebaseer op die kragtige StyleGAN voorgestel is, het hierdie beeldgeoriënteerde tegnieke duidelike nadele wanneer dit met video's gebruik word, soos die vaste raamgrootte, die vereiste vir gesigbelyning, die afwesigheid van nie-gesigsbesonderhede , en tydelike inkonsekwentheid.

'n Revolusionêre VToonify-raamwerk word gebruik om die moeilike beheerde hoë-resolusie-portretvideostyloordrag aan te pak.

Ons sal die mees onlangse studie oor VToonify in hierdie artikel ondersoek, insluitend die funksionaliteit, nadele en ander faktore.

Wat is Vtoonify?

VToonify-raamwerk maak voorsiening vir aanpasbare hoë-resolusie-portretvideostyl-oordrag.

VToonify gebruik StyleGAN se middel- en hoë-resolusie-lae om artistieke portrette van hoë gehalte te skep wat gebaseer is op multiskaal-inhoudeienskappe wat deur 'n enkodeerder herwin word om raambesonderhede te behou.

Die gevolglike volledig konvolusionele argitektuur neem nie-belynde gesigte in flieks van veranderlike grootte as inset, wat lei tot heelgesigstreke met realistiese bewegings in die uitset.

Vtoonify

Hierdie raamwerk is versoenbaar met huidige StyleGAN-gebaseerde beeldtoonifikasiemodelle, wat dit moontlik maak om uitgebrei te word na videotoonifikasie, en erf aantreklike eienskappe soos verstelbare kleur- en intensiteitaanpassing.

dit bestudeer stel twee instansiasies van VToonify bekend gebaseer op Toonify en DualStyleGAN vir onderskeidelik versamelingsgebaseerde en voorbeeldgebaseerde portretvideostyloordrag.

Uitgebreide eksperimentele bevindinge toon dat die voorgestelde VToonify-raamwerk beter presteer as bestaande benaderings in die maak van hoë-gehalte, tydelik-koherente artistieke portretfilms met veranderlike stylparameters.

Navorsers verskaf die Google Colab-notaboek, sodat jy jou hande daarop kan vuil maak.

Hoe werk dit?

Om verstelbare hoë-resolusie portretvideostyloordrag te bewerkstellig, kombineer VToonify die voordele van die beeldvertalingsraamwerk met die StyleGAN-gebaseerde raamwerk.

Vtoonify werk

Om wisselende invoergroottes te akkommodeer, gebruik die beeldvertalingstelsel ten volle konvolusionele netwerke. Opleiding van nuuts af, aan die ander kant, maak hoë-resolusie en beheerde styloordrag onmoontlik.

Die vooraf-opgeleide StyleGAN-model word in die StyleGAN-gebaseerde raamwerk gebruik vir hoë-resolusie en beheerde styloordrag, hoewel dit beperk is tot vaste prentgrootte en detailverliese.

StyleGAN word in die hibriede raamwerk gewysig deur sy vaste-grootte invoerkenmerk en lae-resolusie lae uit te vee, wat lei tot 'n volledig konvolusionele enkodeerder-generator-argitektuur soortgelyk aan dié van die beeldvertalingsraamwerk.

Om raambesonderhede te handhaaf, lei 'n enkodeerder op om multiskaal-inhoudeienskappe van die invoerraam te onttrek as 'n bykomende inhoudvereiste vir die kragopwekker. Vtoonify erf die StyleGAN-model se stylbeheer-buigsaamheid deur dit in die kragopwekker te plaas om beide sy data en model te distilleer.

Beperkings van StyleGAN & Voorgestelde Vtoonify

Artistieke portrette is algemeen in ons daaglikse lewens sowel as in kreatiewe besighede soos kuns, sosiale media avatars, flieks, vermaaklikheidsadvertensies, ensovoorts.

Met die ontwikkeling van diep leer tegnologie, is dit nou moontlik om artistieke portrette van hoë gehalte te skep uit werklike gesigfoto's met behulp van outomatiese portretstyloordrag.

Daar is 'n verskeidenheid suksesvolle maniere wat geskep is vir beeldgebaseerde styloordrag, waarvan baie maklik toeganklik is vir begingebruikers in die vorm van mobiele toepassings. Videomateriaal het die afgelope paar jaar vinnig 'n steunpilaar van ons sosiale media-feeds geword.

Die opkoms van sosiale media en kortstondige films het die vraag na innoverende videoredigering, soos portretvideostyloordrag, laat toeneem om suksesvolle en interessante video's te genereer.

Bestaande beeldgeoriënteerde tegnieke het aansienlike nadele wanneer dit op flieks toegepas word, wat hul bruikbaarheid in outomatiese portretvideostilering beperk.

StyleGAN is 'n algemene ruggraat vir die ontwikkeling van 'n portretfoto-styloordragmodel vanweë sy vermoë om gesigte van hoë gehalte met verstelbare stylbestuur te skep.

'n StyleGAN-gebaseerde stelsel (ook bekend as prenttoonifikasie) kodeer 'n regte gesig in die StyleGAN latente ruimte en pas dan die resulterende stylkode toe op 'n ander StyleGAN wat fyn ingestel is op die artistieke portretdatastel om 'n gestileerde weergawe te skep.

StyleGAN skep prente met gesigte in lyn en teen 'n vaste grootte, wat nie dinamiese gesigte in werklike beeldmateriaal bevoordeel nie. Gesigsny en belyning in die video lei soms tot 'n gedeeltelike gesig en ongemaklike gebare. Navorsers noem hierdie kwessie StyleGAN se 'vaste-oesbeperking'.

Vir ongelynde gesigte is StyleGAN3 voorgestel; dit ondersteun egter net 'n vasgestelde prentgrootte.

Verder het 'n onlangse studie ontdek dat die kodering van ongelynde gesigte meer uitdagend is as belynde gesigte. Verkeerde gesigkodering is skadelik vir portretstyloordrag, wat lei tot kwessies soos identiteitsverandering en ontbrekende komponente in die gerekonstrueerde en gestileerde rame.

Soos bespreek, moet 'n doeltreffende tegniek vir portretvideostyloordrag die volgende kwessies hanteer:

Om realistiese bewegings te behou, moet die benadering in staat wees om ongelynde gesigte en gevarieerde videogroottes te hanteer. 'n Groot videogrootte, of 'n wye kykhoek, kan meer inligting vasvang terwyl die gesig nie uit die raam beweeg nie.
Om mee te ding met vandag se algemeen gebruikte HD-toestelle, is hoë-resolusie video nodig.
Buigsame stylbeheer moet aangebied word vir gebruikers om hul keuse te verander en te kies wanneer hulle 'n realistiese gebruikerinteraksiestelsel ontwikkel.

Vir daardie doel stel navorsers VToonify voor, 'n nuwe hibriede raamwerk vir videotoonifikasie. Om die vaste oesbeperking te oorkom, bestudeer navorsers eers vertaalekwivariansie in StyleGAN.

VToonify kombineer die voordele van die StyleGAN-gebaseerde argitektuur en die beeldvertalingsraamwerk om verstelbare hoë-resolusie portretvideostyloordrag te bewerkstellig.

Die volgende is die belangrikste bydraes:

Navorsers ondersoek StyleGAN se vaste-oesbeperking en stel 'n oplossing voor wat gebaseer is op vertaalekwivariansie.
Navorsers bied 'n unieke volledig konvolusionele VToonify-raamwerk aan vir beheerde hoë-resolusie portretvideostyloordrag wat ongelynde gesigte en verskillende videogroottes ondersteun.
Navorsers konstrueer VToonify op die ruggraat van Toonify en DualStyleGAN en kondenseer die ruggraat in terme van beide data en model om versamelinggebaseerde en voorbeeldgebaseerde portretvideostyloordrag moontlik te maak.

Vergelyk Vtoonify met ander moderne modelle

Toonify

Dit dien as die grondslag vir versameling-gebaseerde styloordrag op belynde gesigte met behulp van StyleGAN. Om die stylkodes te herwin, moet navorsers gesigte in lyn bring en 256256 foto's vir PSP sny. Toonify word gebruik om 'n gestileerde uitkoms met 1024*1024 stylkodes te genereer.

Uiteindelik bring hulle die resultaat in die video weer in lyn met sy oorspronklike ligging. Die ongestileerde area is op swart gestel.

Vergelyk Vtoonify met ander moderne modelle

DualStyleGAN

Dit is 'n ruggraat vir voorbeeldgebaseerde styloordrag gebaseer op StyleGAN. Hulle gebruik dieselfde data voor- en naverwerkingstegnieke as Toonify.

Pix2pixHD

Dit is 'n beeld-na-beeld-vertalingsmodel wat algemeen gebruik word om vooraf-opgeleide modelle vir hoë-resolusie-redigering te kondenseer. Dit word opgelei met behulp van gepaarde data.

Navorsers gebruik pix2pixHD as sy bykomende instansiekaartinsette aangesien dit onttrekte ontledingskaart gebruik.

Eerste Orde Mosie

FOM is 'n tipiese beeld animasie model. Dit is opgelei op 256256 foto's en presteer swak met ander beeldgroottes. As gevolg hiervan, skaal navorsers eers die videorame na 256*256 vir FOM na animasie en verander dan die resultate na hul oorspronklike grootte.

Vir 'n regverdige vergelyking gebruik FOM die eerste gestileerde raam van sy benadering as sy verwysingstylbeeld.

DaGAN

Dit is 'n 3D-gesig-animasiemodel. Hulle gebruik dieselfde data voorbereiding en naverwerking metodes as FOM.

Vergelyking

voordele

Dit kan gebruik word in die kunste, sosiale media-avatars, flieks, vermaaklikheidsadvertensies, ensovoorts.
Vtoonify kan ook in die metaverse gebruik word.

Beperkings

Hierdie metodologie onttrek beide die data en die model uit die StyleGAN-gebaseerde ruggraat, wat lei tot data- en modelvooroordeel.
Die artefakte word meestal veroorsaak deur grootteverskille tussen die gestileerde gesigstreek en die ander afdelings.
Hierdie strategie is minder suksesvol wanneer dinge in die gesigstreek hanteer word.

Gevolgtrekking

Ten slotte, VToonify is 'n raamwerk vir styl-beheerde hoë-resolusie video toonifikasie.

Hierdie raamwerk behaal uitstekende werkverrigting in die hantering van video's en stel wye beheer oor die strukturele styl, kleurstyl en stylgraad moontlik deur StyleGAN-gebaseerde beeldtoonifikasiemodelle te kondenseer in terme van beide hul sintetiese data en netwerkstrukture.

Vtoonify: Beheerbare hoë-resolusie portretvideostyloordrag

Wat is Vtoonify?

Hoe werk dit?

Beperkings van StyleGAN & Voorgestelde Vtoonify