Vtoonify: Prenos video stila portreta visoke rezolucije koji se može kontrolisati

Sadržaj[Sakrij][Prikaži]

Šta je Vtoonify?
Kako funkcioniše?
Ograničenja StyleGAN-a i predloženog Vtoonifyja
Poređenje Vtoonifyja sa drugim najsavremenijim modelima+-
prednosti+-
- ograničenja
zaključak

Presudan je i poželjan zadatak u kompjuterskoj viziji i grafici proizvesti kreativne portretne filmove najvišeg kalibra.

Iako je predloženo nekoliko efikasnih modela za toonizaciju portretne slike zasnovane na moćnom StyleGAN-u, ove tehnike orijentisane na sliku imaju jasne nedostatke kada se koriste sa video zapisima, kao što su fiksna veličina okvira, zahtev za poravnanje lica, odsustvo detalja koji nisu na licu. i vremenska nedosljednost.

Revolucionarni okvir VToonify se koristi za rješavanje teško kontroliranog prijenosa portretnog video stila visoke rezolucije.

U ovom članku ćemo ispitati najnoviju studiju o VToonifyju, uključujući njegovu funkcionalnost, nedostatke i druge faktore.

Šta je Vtoonify?

VToonify framework omogućava prilagodljiv prijenos portretnog video stila visoke rezolucije.

VToonify koristi StyleGAN slojeve srednje i visoke rezolucije za kreiranje visokokvalitetnih umjetničkih portreta zasnovanih na karakteristikama sadržaja u više skala koje preuzima enkoder kako bi zadržao detalje okvira.

Rezultirajuća potpuno konvoluciona arhitektura uzima neporavnana lica u filmovima promenljive veličine kao ulaz, što rezultira regionima celog lica sa realističnim pokretima na izlazu.

Vtoonify

Ovaj okvir je kompatibilan sa trenutnim modelima toonifikacije slika baziranim na StyleGAN-u, omogućavajući im da se prošire na toonizaciju videa, i nasljeđuje atraktivne karakteristike kao što su podesiva boja i prilagođavanje intenziteta.

ovo studija uvodi dvije instancije VToonifyja zasnovane na Toonify i DualStyleGAN za prijenos portretnog video stila zasnovanog na kolekciji i primjeru.

Opsežni eksperimentalni nalazi pokazuju da predloženi okvir VToonify nadmašuje postojeće pristupe u pravljenju visokokvalitetnih, vremenski koherentnih umjetničkih portretnih filmova s promjenjivim stilskim parametrima.

Istraživači pružaju Google Colab notebook, tako da možete uprljati ruke na njemu.

Kako funkcioniše?

Da bi se postigao podesivi prenos portretnog video stila visoke rezolucije, VToonify kombinuje prednosti okvira za prevođenje slika sa okvirom zasnovanim na StyleGAN-u.

Vtoonify Working

Da bi se prilagodio različitim veličinama ulaza, sistem za prevođenje slika koristi potpuno konvolucione mreže. Obuka od nule, s druge strane, onemogućava prijenos visoke rezolucije i kontroliranog stila.

Prethodno obučeni StyleGAN model se koristi u okviru zasnovanom na StyleGAN-u za visoku rezoluciju i kontrolirani prijenos stilova, iako je ograničen na fiksnu veličinu slike i gubitke detalja.

StyleGAN je modifikovan u hibridnom okviru brisanjem njegove ulazne karakteristike fiksne veličine i slojeva niske rezolucije, što rezultira potpuno konvolucionom arhitekturom enkoder-generatora sličnom onoj u okviru za prevođenje slika.

Za održavanje detalja okvira, obučite enkoder da ekstrahira karakteristike sadržaja više skale iz ulaznog okvira kao dodatni zahtjev za sadržaj generatoru. Vtoonify nasljeđuje fleksibilnost kontrole stila StyleGAN modela tako što ga stavlja u generator da destilira i svoje podatke i model.

Ograničenja StyleGAN-a i predloženog Vtoonifyja

Umjetnički portreti su uobičajeni u našem svakodnevnom životu, kao iu kreativnim poslovima kao što su umjetnost, društvenih medija avatari, filmovi, reklama za zabavu i tako dalje.

Sa razvojem duboko učenje tehnologije, sada je moguće kreirati visokokvalitetne umjetničke portrete od stvarnih fotografija lica koristeći automatizirani prijenos stilova portreta.

Postoji niz uspješnih načina kreiranih za prijenos stilova zasnovanih na slikama, od kojih su mnogi lako dostupni korisnicima početnicima u obliku mobilnih aplikacija. Video materijal je brzo postao glavni oslonac na našim društvenim mrežama u posljednjih nekoliko godina.

Porast društvenih medija i efemernih filmova povećao je potražnju za inovativnim video montažom, kao što je prijenos stilova portretnog videa, kako bi se stvorili uspješni i zanimljivi video zapisi.

Postojeće tehnike orijentisane na sliku imaju značajne nedostatke kada se primenjuju na filmove, ograničavajući njihovu korisnost u automatizovanoj stilizaciji portretnog videa.

StyleGAN je uobičajena okosnica za razvoj modela prenosa stila portretne slike zbog svoje sposobnosti da kreira visokokvalitetna lica sa podesivim upravljanjem stilom.

Sistem zasnovan na StyleGAN-u (takođe poznat kao toonifikacija slike) kodira pravo lice u latentni prostor StyleGAN-a i zatim primjenjuje rezultujući stilski kod na drugi StyleGAN fino podešen na skupu podataka umjetničkog portreta kako bi se stvorila stilizirana verzija.

StyleGAN stvara slike sa poravnatim licima i fiksne veličine, što ne favorizuje dinamična lica u snimcima iz stvarnog svijeta. Izrezivanje i poravnavanje lica u videu ponekad rezultiraju djelomičnim licem i neugodnim pokretima. Istraživači ovo pitanje nazivaju StyleGAN-ovim 'ograničenjem fiksnog useva'.

Za neporavnana lica predložen je StyleGAN3; međutim, podržava samo podešenu veličinu slike.

Nadalje, nedavna studija je otkrila da je kodiranje neporavnanih lica izazovnije od poravnatih lica. Netačno kodiranje lica je štetno za prijenos stila portreta, što rezultira problemima kao što su izmjena identiteta i nedostajuće komponente u rekonstruiranim i stiliziranim okvirima.

Kao što je objašnjeno, efikasna tehnika za prijenos portretnog video stila mora rješavati sljedeće probleme:

Da bi se očuvali realistični pokreti, pristup mora biti u stanju da se nosi sa neusklađenim licima i različitim veličinama videa. Velika veličina videozapisa ili širok ugao gledanja mogu uhvatiti više informacija, a da pritom spriječi da lice izađe iz okvira.
Da bismo se takmičili sa današnjim često korišćenim HD uređajima, video visoke rezolucije je neophodan.
Fleksibilnu kontrolu stila treba ponuditi korisnicima da izmijene i izaberu svoj izbor kada razvijaju realističan sistem interakcije korisnika.

U tu svrhu, istraživači predlažu VToonify, novi hibridni okvir za video toonizaciju. Da bi prevazišli ograničenje fiksnog useva, istraživači prvo proučavaju ekvivarijaciju prevoda u StyleGAN-u.

VToonify kombinuje prednosti arhitekture zasnovane na StyleGAN-u i okvira za prevođenje slika kako bi se postigao podesivi prenos portretnog video stila visoke rezolucije.

Ovo su glavni doprinosi:

Istraživači istražuju StyleGAN-ovo ograničenje fiksnog useva i predlažu rješenje zasnovano na ekvivarijansi prijevoda.
Istraživači predstavljaju jedinstveni potpuno konvolucijski VToonify okvir za kontrolirani prijenos portretnog video stila visoke rezolucije koji podržava neporavnana lica i različite veličine video zapisa.
Istraživači konstruišu VToonify na okosnicama Toonifyja i DualStyleGAN-a i sažimaju okosnice u smislu podataka i modela kako bi omogućili prijenos portretnog video stila baziran na zbirkama i primjerima.

Poređenje Vtoonifyja sa drugim najsavremenijim modelima

Toonify

Služi kao osnova za prijenos stilova baziran na kolekciji na poravnatim licima pomoću StyleGAN-a. Da bi dobili kodove stilova, istraživači moraju poravnati lica i izrezati 256256 fotografija za PSP. Toonify se koristi za generiranje stiliziranog ishoda sa stilskim kodovima 1024*1024.

Konačno, ponovo poravnavaju rezultat u videu na njegovu originalnu lokaciju. Nestilizirano područje je postavljeno na crno.

Poređenje Vtoonifyja sa drugim najsavremenijim modelima

DualStyleGAN

To je okosnica za prijenos stilova baziran na primjeru zasnovan na StyleGAN-u. Oni koriste iste tehnike pre i naknadne obrade podataka kao i Toonify.

Pix2pixHD

To je model prevođenja slike u sliku koji se obično koristi za kondenzaciju unaprijed obučenih modela za uređivanje visoke rezolucije. Trenira se korištenjem uparenih podataka.

Istraživači koriste pix2pixHD kao dodatne ulaze za mapu instance jer koristi ekstrahovanu mapu za raščlanjivanje.

Prijedlog prvog reda

FOM je tipičan model animacije slike. Obučen je na 256256 slika i loše radi s drugim veličinama slika. Kao posljedica toga, istraživači prvo skaliraju video okvire na 256*256 za FOM za animaciju, a zatim mijenjaju veličinu rezultata na njihovu originalnu veličinu.

Za pošteno poređenje, FOM koristi prvi stilizovani okvir svog pristupa kao referentnu sliku stila.

DaGAN

Radi se o modelu 3D animacije lica. Koriste iste metode pripreme i naknadne obrade podataka kao i FOM.

Comarision

prednosti

Može se koristiti u umjetnosti, avatarima na društvenim mrežama, filmovima, reklamama za zabavu i tako dalje.
Vtoonify se takođe može koristiti u metaverzumu.

ograničenja

Ova metodologija izdvaja i podatke i model iz okosnica zasnovanih na StyleGAN-u, što rezultira pristranošću podataka i modela.
Artefakti su uglavnom uzrokovani razlikama u veličini između regije stiliziranog lica i ostalih dijelova.
Ova strategija je manje uspješna kada se radi o stvarima u regiji lica.

zaključak

Konačno, VToonify je okvir za toonizaciju videa visoke rezolucije kontroliranu stilom.

Ovaj okvir postiže odlične performanse u rukovanju video zapisima i omogućava široku kontrolu nad strukturnim stilom, stilom boja i stepenom stila kondenzacijom modela toonifikacije slika zasnovanih na StyleGAN-u u smislu njihovog sintetički podaci i mrežne strukture.

Vtoonify: Prenos video stila portreta visoke rezolucije koji se može kontrolisati

Šta je Vtoonify?

Kako funkcioniše?

Ograničenja StyleGAN-a i predloženog Vtoonifyja