Tietokonenäön ja -grafiikassa keskeinen ja toivottava tehtävä on tuottaa korkeimman kaliiperin luovia muotokuvafilmejä.
Vaikka useita tehokkaita malleja muotokuvan toonisoimiseksi, jotka perustuvat tehokkaaseen StyleGANiin, näillä kuvasuuntautuneilla tekniikoilla on selkeitä haittoja videoiden kanssa käytettäessä, kuten kiinteä kehyskoko, kasvojen kohdistamisen vaatimus, ei-kasvojen yksityiskohtien puuttuminen. , ja ajallinen epäjohdonmukaisuus.
Vallankumouksellista VToonify-kehystä käytetään vaikeasti ohjatun korkearesoluutioisen muotokuvavideon tyylin siirtoon.
Tutkimme tässä artikkelissa viimeisintä VToonify-tutkimusta, mukaan lukien sen toimivuus, haitat ja muut tekijät.
Mikä on Vtoonify?
VToonify-kehys mahdollistaa mukautettavan korkearesoluutioisen muotokuvavideolähetyksen.
VToonify käyttää StyleGANin keski- ja korkearesoluutioisia tasoja luodakseen korkealaatuisia taiteellisia muotokuvia, jotka perustuvat enkooderin haettuihin monimuotoisiin sisältöominaisuuksiin kehyksen yksityiskohtien säilyttämiseksi.
Tuloksena oleva täysin konvoluutioarkkitehtuuri ottaa syötteeksi tasaamattomat kasvot vaihtelevan kokoisissa elokuvissa, jolloin tuloksena on koko kasvot kattavat alueet, joissa tulosteessa on realistisia liikkeitä.
Tämä kehys on yhteensopiva nykyisten StyleGAN-pohjaisten kuvan toonisointimallien kanssa, mikä mahdollistaa niiden laajentamisen videon tonisointiin, ja se perii houkuttelevia ominaisuuksia, kuten säädettävän värin ja intensiteetin mukautuksen.
Tämä opiskella esittelee kaksi VToonify-versiota, jotka perustuvat Toonify- ja DualStyleGAN-pohjaisiin kokoelmapohjaisiin ja esimerkkipohjaisiin muotokuvatyylien siirtoihin.
Laajat kokeelliset havainnot osoittavat, että ehdotettu VToonify-kehys ylittää nykyiset lähestymistavat korkealaatuisten, ajallisesti yhtenäisten taiteellisten muotokuvaelokuvien tekemisessä vaihtelevilla tyyliparametreilla.
Tutkijat tarjoavat Google Colab -muistikirja, joten voit likaista kätesi siihen.
Miten tämä toimii?
VToonify yhdistää kuvien käännöskehyksen edut StyleGAN-pohjaiseen kehykseen säädettävän korkearesoluutioisen muotokuvavideon tyylin siirtämiseksi.
Vaihtelevien syötteiden kokoa varten kuvanmuunnosjärjestelmä käyttää täysin konvoluutioverkkoja. Tyhjästä harjoitteleminen puolestaan tekee korkearesoluutioisen ja kontrolloidun tyylin lähetyksen mahdottomaksi.
Esiopetettua StyleGAN-mallia käytetään StyleGAN-pohjaisessa kehyksessä korkearesoluutioiseen ja kontrolloituun tyylin siirtoon, vaikka se on rajoitettu kiinteään kuvakokoon ja yksityiskohtien hävikkiin.
StyleGAN on modifioitu hybridikehyksessä poistamalla sen kiinteän kokoinen syöttöominaisuus ja matalaresoluutioiset kerrokset, mikä johtaa täysin konvoluutioon enkooderi-generaattoriarkkitehtuuriin, joka on samanlainen kuin kuvan käännöskehyksessä.
Kehyksen yksityiskohtien säilyttämiseksi kouluta kooderi poimimaan syöttökehyksen monimuotoiset sisältöominaisuudet generaattorin lisäsisällön vaatimuksena. Vtoonify perii StyleGAN-mallin tyylinhallinnan joustavuuden asettamalla sen generaattoriin tislaamaan sekä datansa että mallinsa.
StyleGANin ja ehdotetun Vtoonifyn rajoitukset
Taiteelliset muotokuvat ovat yleisiä jokapäiväisessä elämässämme sekä luovissa yrityksissä, kuten taiteessa, sosiaalinen media avatarit, elokuvat, viihdemainokset ja niin edelleen.
Kehittäessään syvä oppiminen teknologian avulla on nyt mahdollista luoda korkealaatuisia taiteellisia muotokuvia tosielämän kasvokuvista käyttämällä automaattista muotokuvatyylien siirtoa.
Kuvapohjaiseen tyylinsiirtoon on luotu useita onnistuneita tapoja, joista monet ovat helposti aloittelevien käyttäjien saatavilla mobiilisovellusten muodossa. Videomateriaalista on tullut nopeasti sosiaalisen median syötteidemme tukijalka useiden viime vuosien aikana.
Sosiaalisen median ja lyhytkestoisten elokuvien nousu on lisännyt innovatiivisten videoeditointien, kuten muotokuvatyylisen siirron, kysyntää onnistuneiden ja mielenkiintoisten videoiden luomiseksi.
Olemassa olevilla kuvasuuntautuneilla tekniikoilla on merkittäviä haittoja, kun niitä sovelletaan elokuviin, mikä rajoittaa niiden käyttökelpoisuutta automatisoidussa muotokuvavideon tyylittelyssä.
StyleGAN on yleinen selkäranka muotokuvatyylisen siirtomallin kehittämiseen, koska se pystyy luomaan korkealaatuisia kasvoja säädettävällä tyylinhallinnalla.
StyleGAN-pohjainen järjestelmä (tunnetaan myös nimellä kuvan toonisointi) koodaa todelliset kasvot StyleGANin piilevään tilaan ja soveltaa sitten tuloksena olevaa tyylikoodia toiseen StyleGANiin, joka on hienosäädetty taiteellisen muotokuvan tietojoukossa luodakseen tyylitellyn version.
StyleGAN luo kuvia tasaisilla kasvoilla ja kiinteässä koossa, mikä ei suosi dynaamisia kasvoja todellisessa materiaalissa. Kasvojen rajaus ja kohdistus videossa johtavat joskus osittaiseen kasvoon ja hankaliin eleisiin. Tutkijat kutsuvat tätä ongelmaa StyleGANin "kiinteän sadon rajoitukseksi".
Tasaamattomille kasvoille on ehdotettu StyleGAN3; se tukee kuitenkin vain asetettua kuvakokoa.
Lisäksi tuoreessa tutkimuksessa havaittiin, että kohdistamattomien kasvojen koodaus on haastavampaa kuin tasattujen kasvojen koodaus. Virheellinen kasvojen koodaus on haitallista muotokuvatyylin siirrolle, mikä johtaa ongelmiin, kuten identiteetin muuttumiseen ja komponenttien puuttumiseen rekonstruoiduista ja tyylitellyistä kehyksistä.
Kuten mainittiin, tehokkaan muotokuvavideotyylien siirtotekniikan on ratkaistava seuraavat ongelmat:
- Realististen liikkeiden säilyttämiseksi lähestymistavan on kyettävä käsittelemään epätasaisia kasvoja ja erilaisia videokokoja. Suuri videokoko tai laaja kuvakulma voi tallentaa enemmän tietoa ja estää kasvoja liikkumasta kehyksestä.
- Kilpaillakseen nykypäivän yleisesti käytettyjen HD-laitteiden kanssa tarvitaan korkearesoluutioinen videokuva.
- Käyttäjille tulisi tarjota joustava tyylinhallinta, jota he voivat muuttaa ja valita, kun he kehittävät realistista vuorovaikutusjärjestelmää.
Tätä tarkoitusta varten tutkijat ehdottavat VToonifya, uutta hybridikehystä videon toonisoinnille. Kiinteän satorajoitteen voittamiseksi tutkijat tutkivat ensin käännösekvivarianssia StyleGANissa.
VToonify yhdistää StyleGAN-pohjaisen arkkitehtuurin ja kuvien käännöskehyksen edut säädettävän korkearesoluutioisen muotokuvan tyylin siirron saavuttamiseksi.
Seuraavat ovat tärkeimmät panokset:
- Tutkijat tutkivat StyleGANin kiinteän sadon rajoitusta ja ehdottavat ratkaisua, joka perustuu translaatioekvivarianssiin.
- Tutkijat esittelevät ainutlaatuisen täysin konvoluution VToonify-kehyksen kontrolloituun korkearesoluutioiseen muotokuvatyyliseen siirtoon, joka tukee tasaamattomia kasvoja ja erilaisia videokokoja.
- Tutkijat rakentavat VToonifyn Toonifyn ja DualStyleGANin rungoille ja tiivistävät selkärangat sekä datan että mallin suhteen mahdollistaakseen kokoelmapohjaisen ja esimerkkipohjaisen muotokuvatyylisen siirron.
Vtoonifyn vertaaminen muihin huippuluokan malleihin
Toonisoi
Se toimii perustana kokoelmapohjaiselle tyylinsiirrolle kohdistetuilla kasvoilla StyleGANin avulla. Tyylikoodien hakemiseksi tutkijoiden on kohdistettava kasvot ja rajattava 256256 1024 kuvaa PSP:tä varten. Toonifya käytetään luomaan tyylitelty lopputulos 1024*XNUMX tyylikoodeilla.
Lopuksi ne kohdistavat videon tuloksen uudelleen alkuperäiseen sijaintiinsa. Tyylittelemätön alue on asetettu mustaksi.
DualStyleGAN
Se on StyleGAN-pohjaisen mallipohjaisen tyylinsiirron selkäranka. Ne käyttävät samoja tietojen esi- ja jälkikäsittelytekniikoita kuin Toonify.
Pix2pixHD
Se on kuvasta kuvaksi -käännösmalli, jota käytetään yleisesti tiivistämään valmiita malleja korkearesoluutioiseen editointiin. Se on koulutettu käyttämällä paritietoja.
Tutkijat käyttävät pix2pixHD:tä lisäilmentymien karttatuloina, koska se käyttää purettua jäsennyskarttaa.
First Order Motion
FOM on tyypillinen kuvaanimaatiomalli. Se on koulutettu 256256 kuvaan ja toimii huonosti muiden kuvakokojen kanssa. Tämän seurauksena tutkijat skaalaavat ensin videokehykset 256*256:een FOM:ia varten animaatioon ja muuttavat sitten tulosten koon alkuperäiseen kokoonsa.
Reilun vertailun vuoksi FOM käyttää lähestymistapansa ensimmäistä tyyliteltyä kehystä vertailutyylikuvanaan.
DaGAN
Se on 3D-kasvoanimaatiomalli. Ne käyttävät samoja tietojen valmistelu- ja jälkikäsittelymenetelmiä kuin FOM.
edut
- Sitä voidaan käyttää taiteessa, sosiaalisen median avatareissa, elokuvissa, viihdemainonnassa ja niin edelleen.
- Vtoonifyta voidaan hyödyntää myös metaversumissa.
Rajoitukset
- Tämä menetelmä poimii sekä datan että mallin StyleGAN-pohjaisista rungoista, mikä johtaa datan ja mallin harhaan.
- Artefaktit johtuvat enimmäkseen kokoeroista tyylitellyn kasvoalueen ja muiden osien välillä.
- Tämä strategia on vähemmän onnistunut käsiteltäessä asioita kasvojen alueella.
Yhteenveto
Lopuksi VToonify on kehys tyyliohjatulle korkearesoluutioiselle videolle.
Tämä kehys saavuttaa erinomaisen suorituskyvyn videoiden käsittelyssä ja mahdollistaa rakenteellisen tyylin, värityylin ja tyyliasteen laajan hallinnan tiivistämällä StyleGAN-pohjaisia kuvan toonisaatiomalleja sekä niiden suhteen. synteettinen data ja verkkorakenteet.
Jätä vastaus