Vtoonify: Kontrolirani prijenos portretnog video stila visoke rezolucije

Pregled sadržaja[Sakriti][Pokazati]

Što je Vtoonify?
Kako radi?
Ograničenja StyleGAN-a i predloženog Vtoonifyja
Usporedba Vtoonifyja s drugim najsuvremenijim modelima+-
Prednosti+-
- Ograničenja
Zaključak

Ključni je i poželjan zadatak u računalnom vidu i grafici proizvesti kreativne portretne filmove najvišeg kalibra.

Iako je predloženo nekoliko učinkovitih modela za tonificiranje portretne slike temeljeno na snažnom StyleGAN-u, ove tehnike usmjerene na sliku imaju jasne nedostatke kada se koriste s videozapisima, kao što je fiksna veličina okvira, zahtjev za poravnanjem lica, odsutnost detalja koji nisu lica , i vremenska nedosljednost.

Revolucionarni okvir VToonify koristi se za rješavanje teško kontroliranog prijenosa portretnog video stila visoke razlučivosti.

U ovom ćemo članku ispitati najnoviju studiju o VToonifyju, uključujući njegovu funkcionalnost, nedostatke i druge čimbenike.

Što je Vtoonify?

Okvir VToonify omogućuje prilagodljivi prijenos portretnog video zapisa visoke rezolucije.

VToonify koristi StyleGAN slojeve srednje i visoke razlučivosti za stvaranje visokokvalitetnih umjetničkih portreta temeljenih na karakteristikama sadržaja u više razmjera koje je dohvatio koder kako bi zadržao detalje okvira.

Rezultirajuća potpuno konvolucijska arhitektura uzima neporavnana lica u filmovima promjenjive veličine kao ulaz, što rezultira regijama cijelog lica s realističnim pokretima na izlazu.

Vtoonify

Ovaj je okvir kompatibilan s trenutnim modelima toonifikacije slika temeljenim na StyleGAN-u, dopuštajući im da se prošire na video toonification, te nasljeđuje atraktivne karakteristike kao što su podesive boje i prilagodba intenziteta.

Ovaj učiti uvodi dvije instance VToonifyja temeljene na Toonifyju i DualStyleGAN-u za prijenos portretnog video stila temeljenog na kolekciji i primjerku.

Opsežni eksperimentalni nalazi pokazuju da predloženi okvir VToonify nadmašuje postojeće pristupe u izradi visokokvalitetnih, vremenski koherentnih umjetničkih portretnih filmova s promjenjivim stilskim parametrima.

Istraživači pružaju Google Colab bilježnica, tako da možete zaprljati ruke na njemu.

Kako radi?

Za postizanje podesivog prijenosa portretnog video stila visoke razlučivosti, VToonify kombinira prednosti okvira za prevođenje slika s okvirom koji se temelji na StyleGAN-u.

Vtoonify radi

Kako bi se prilagodio različitim veličinama unosa, sustav za prevođenje slika koristi potpuno konvolucijske mreže. S druge strane, obuka od nule onemogućuje prijenos visoke razlučivosti i kontroliranog stila.

Unaprijed uvježbani model StyleGAN koristi se u okviru koji se temelji na StyleGAN-u za prijenos visoke rezolucije i kontroliranog stila, iako je ograničen na fiksnu veličinu slike i gubitak detalja.

StyleGAN je modificiran u hibridnom okviru brisanjem značajke unosa fiksne veličine i slojeva niske razlučivosti, što rezultira potpuno konvolucijskom arhitekturom kodera-generatora sličnom onom okvira za prevođenje slika.

Za održavanje detalja okvira, uvježbajte koder za izdvajanje značajki sadržaja višestrukih razmjera ulaznog okvira kao dodatni zahtjev za sadržaj za generator. Vtoonify nasljeđuje fleksibilnost kontrole stila modela StyleGAN stavljajući ga u generator za destilaciju podataka i modela.

Ograničenja StyleGAN-a i predloženog Vtoonifyja

Umjetnički portreti uobičajeni su u našem svakodnevnom životu, kao iu kreativnim poslovima poput umjetnosti, društvenih medija avatare, filmove, reklame za zabavu i tako dalje.

Razvojem duboko učenje tehnologije, sada je moguće izraditi visokokvalitetne umjetničke portrete iz stvarnih fotografija lica korištenjem automatiziranog prijenosa stila portreta.

Postoji niz uspješnih načina stvorenih za prijenos stila temeljen na slikama, od kojih su mnogi lako dostupni korisnicima početnicima u obliku mobilnih aplikacija. Videomaterijal je brzo postao oslonac naših feedova na društvenim mrežama u posljednjih nekoliko godina.

Uspon društvenih medija i prolaznih filmova povećao je potražnju za inovativnim uređivanjem videozapisa, kao što je prijenos portretnog stila videozapisa, kako bi se stvorili uspješni i zanimljivi videozapisi.

Postojeće tehnike orijentirane na sliku imaju značajne nedostatke kada se primjenjuju na filmove, ograničavajući njihovu korisnost u automatiziranoj portretnoj video stilizaciji.

StyleGAN je uobičajena okosnica za razvoj modela prijenosa stila portretne slike zbog svoje sposobnosti stvaranja lica visoke kvalitete s podesivim upravljanjem stilom.

Sustav temeljen na StyleGAN-u (također poznat kao toonifikacija slike) kodira stvarno lice u latentni prostor StyleGAN-a i zatim primjenjuje dobiveni kod stila na drugi StyleGAN koji je fino podešen na skupu podataka o umjetničkom portretu kako bi se stvorila stilizirana verzija.

StyleGAN stvara slike s poravnatim licima i fiksne veličine, što ne daje prednost dinamičnim licima u snimkama iz stvarnog svijeta. Obrezivanje lica i poravnavanje u videozapisu ponekad rezultiraju djelomičnim licem i nespretnim pokretima. Istraživači ovaj problem nazivaju StyleGAN-ovim 'ograničenjem stalnih usjeva'.

Za neporavnana lica, predložen je StyleGAN3; međutim, podržava samo postavljenu veličinu slike.

Nadalje, nedavna studija otkrila je da je kodiranje neporavnanih lica veći izazov od poravnatih lica. Neispravno kodiranje lica štetno je za prijenos stila portreta, što dovodi do problema kao što su promjena identiteta i nedostajućih komponenti u rekonstruiranim i stiliziranim okvirima.

Kao što je spomenuto, učinkovita tehnika za prijenos portretnog video stila mora rješavati sljedeće probleme:

Kako bi se sačuvali realistični pokreti, pristup mora biti u mogućnosti nositi se s neporavnanim licima i različitim veličinama videozapisa. Velika veličina videozapisa ili široki kut gledanja mogu uhvatiti više informacija, a istovremeno spriječiti da lice izađe iz kadra.
Kako bi se natjecali s današnjim često korištenim HD napravama, potreban je video visoke rezolucije.
Fleksibilna kontrola stila trebala bi biti ponuđena korisnicima da mijenjaju i odabiru svoj izbor pri razvoju realističnog sustava interakcije s korisnikom.

U tu svrhu istraživači predlažu VToonify, novi hibridni okvir za video tonificiranje. Kako bi prevladali ograničenje fiksnog usjeva, istraživači prvo proučavaju ekvivarijantnost prijevoda u StyleGAN-u.

VToonify kombinira prednosti arhitekture temeljene na StyleGAN-u i okvira za prevođenje slika kako bi se postigao prilagodljiv prijenos stila portretnog videa visoke rezolucije.

Sljedeći su glavni doprinosi:

Istraživači istražuju StyleGAN-ovo ograničenje fiksnog usjeva i predlažu rješenje temeljeno na ekvivarijantnosti prijevoda.
Istraživači predstavljaju jedinstveni potpuno konvolucijski okvir VToonify za kontrolirani prijenos portretnog video stila visoke rezolucije koji podržava neporavnana lica i različite veličine video zapisa.
Istraživači konstruiraju VToonify na okosnicama Toonifyja i DualStyleGAN-a i kondenziraju okosnice u smislu podataka i modela kako bi omogućili prijenos portretnog video stila temeljenog na zbirkama i uzorcima.

Usporedba Vtoonifyja s drugim najsuvremenijim modelima

Toonify

Služi kao temelj za prijenos stila temeljen na kolekcijama na poravnatim stranama pomoću StyleGAN-a. Kako bi dohvatili stilske kodove, istraživači moraju poravnati lica i izrezati 256256 fotografija za PSP. Toonify se koristi za generiranje stiliziranog ishoda s kodovima stila 1024*1024.

Na kraju, ponovno poravnavaju rezultat u videu na izvornu lokaciju. Nestilizirano područje postavljeno je na crno.

Usporedba Vtoonifyja s drugim najsuvremenijim modelima

DualStyleGAN

To je okosnica za prijenos stila temeljen na primjeru koji se temelji na StyleGAN-u. Koriste iste tehnike prije i naknadne obrade podataka kao i Toonify.

Pix2pixHD

To je model prevođenja slike u sliku koji se obično koristi za sažimanje unaprijed obučenih modela za uređivanje visoke razlučivosti. Uvježbava se pomoću uparenih podataka.

Istraživači koriste pix2pixHD kao dodatne instance mape inputa budući da koristi ekstrahiranu mapu parsiranja.

Kretanje prvog reda

FOM je tipičan model animacije slike. Uvježban je na 256256 slika i loše radi s drugim veličinama slika. Kao posljedica toga, istraživači prvo skaliraju video okvire na 256*256 za FOM za animaciju, a zatim mijenjaju veličinu rezultata na njihovu izvornu veličinu.

Za poštenu usporedbu, FOM koristi prvi stilizirani okvir svog pristupa kao referentnu stilsku sliku.

DaGAN

To je 3D model animacije lica. Koriste iste metode pripreme podataka i postprocesiranja kao FOM.

Poređenje

Prednosti

Može se koristiti u umjetnosti, avatarima na društvenim mrežama, filmovima, reklamama za zabavu i tako dalje.
Vtoonify se također može koristiti u metaverzumu.

Ograničenja

Ova metodologija izvlači i podatke i model iz okosnica temeljenih na StyleGAN-u, što rezultira pristranošću podataka i modela.
Artefakti su uglavnom uzrokovani razlikama u veličini između stiliziranog područja lica i ostalih dijelova.
Ova strategija je manje uspješna kada se radi o stvarima u području lica.

Zaključak

Naposljetku, VToonify je okvir za stilski kontroliranu video tonizaciju visoke razlučivosti.

Ovaj okvir postiže izvrsne performanse u rukovanju videozapisima i omogućuje široku kontrolu nad strukturnim stilom, stilom boje i stupnjem stila kondenzacijom modela toonifikacije slike temeljenih na StyleGAN-u u smislu oba sintetički podaci i mrežne strukture.

Vtoonify: prijenos portretnog video stila visoke rezolucije koji se može kontrolirati

Što je Vtoonify?

Kako radi?

Ograničenja StyleGAN-a i predloženog Vtoonifyja