Vtoonify: Prenos sloga portretnega videoposnetka visoke ločljivosti, ki ga je mogoče nadzorovati

Kazalo[Skrij][Pokaži]

Kaj je Vtoonify?
Kako deluje?
Omejitve StyleGAN & Predlagani Vtoonify
Primerjava Vtoonify z drugimi najsodobnejšimi modeli+-
prednosti+-
- Omejitve
zaključek

Ključna in zaželena naloga v računalniškem vidu in grafiki je ustvarjanje kreativnih portretnih filmov najvišjega kalibra.

Čeprav je bilo predlaganih več učinkovitih modelov za tonizacijo portretnih slik, ki temeljijo na zmogljivem StyleGAN, imajo te slikovno usmerjene tehnike jasne pomanjkljivosti, ko se uporabljajo z videoposnetki, kot so fiksna velikost okvirja, zahteva za poravnavo obraza, odsotnost podrobnosti, ki niso obrazne. , in časovna nedoslednost.

Revolucionarno ogrodje VToonify se uporablja za reševanje težko nadzorovanega prenosa portretnega videoposnetka visoke ločljivosti.

V tem članku bomo preučili najnovejšo študijo o VToonify, vključno z njegovo funkcionalnostjo, pomanjkljivostmi in drugimi dejavniki.

Kaj je Vtoonify?

Ogrodje VToonify omogoča prilagodljiv prenos v portretnem slogu visoke ločljivosti.

VToonify uporablja sloje srednje in visoke ločljivosti StyleGAN za ustvarjanje visokokakovostnih umetniških portretov na podlagi značilnosti vsebine v več merilih, ki jih pridobi kodirnik, da ohrani podrobnosti okvirja.

Nastala popolnoma konvolucijska arhitektura kot vhodne podatke vzame neporavnane obraze v filmih spremenljive velikosti, kar povzroči območja celega obraza z realističnimi gibi na izhodu.

Vtoonify

To ogrodje je združljivo s trenutnimi modeli toonifikacije slik, ki temeljijo na StyleGAN, kar omogoča njihovo razširitev na video toonification, in podeduje privlačne značilnosti, kot sta nastavljiva barva in prilagajanje intenzivnosti.

Ta študija uvaja dve različici VToonify, ki temeljita na Toonify in DualStyleGAN za prenos portretnega video sloga na podlagi zbirke oziroma na vzorcu.

Obsežne eksperimentalne ugotovitve kažejo, da predlagani okvir VToonify prekaša obstoječe pristope pri izdelavi visokokakovostnih, časovno skladnih umetniških portretnih filmov s spremenljivimi slogovnimi parametri.

Raziskovalci zagotavljajo Beležnica Google Colab, tako da si lahko umažete roke.

Kako deluje?

Za dosego nastavljivega prenosa portretnega video sloga visoke ločljivosti VToonify združuje prednosti ogrodja za prevajanje slik z ogrodjem, ki temelji na StyleGAN.

Vtoonify deluje

Sistem za prevajanje slik uporablja popolnoma konvolucijska omrežja, da se prilagodi različnim velikostim vnosa. Po drugi strani pa usposabljanje iz nič onemogoča prenos visoke ločljivosti in nadzorovanega sloga.

Vnaprej pripravljen model StyleGAN se uporablja v ogrodju, ki temelji na StyleGAN, za visoko ločljivost in nadzorovan prenos sloga, čeprav je omejen na fiksno velikost slike in izgube podrobnosti.

StyleGAN je spremenjen v hibridnem ogrodju z brisanjem svoje vhodne funkcije s fiksno velikostjo in plasti z nizko ločljivostjo, kar ima za posledico popolnoma konvolucijsko arhitekturo kodirnika-generatorja, podobno arhitekturi ogrodja za prevajanje slik.

Če želite ohraniti podrobnosti okvirja, kot dodatno vsebinsko zahtevo za generator usposobite kodirnik za ekstrahiranje značilnosti vsebine v več merilih vhodnega okvirja. Vtoonify podeduje prilagodljivost nadzora sloga modela StyleGAN, tako da ga postavi v generator za destilacijo njegovih podatkov in modela.

Omejitve StyleGAN & Predlagani Vtoonify

Umetniški portreti so pogosti v našem vsakdanjem življenju, pa tudi v kreativnih poslih, kot so umetnost, družbeni mediji avatarji, filmi, zabavno oglaševanje itd.

Z razvojem globoko učenje tehnologije, je zdaj mogoče ustvariti visokokakovostne umetniške portrete iz dejanskih fotografij obrazov z avtomatiziranim prenosom portretnega sloga.

Obstaja vrsta uspešnih načinov, ustvarjenih za prenos stilov, ki temeljijo na slikah, od katerih so mnogi zlahka dostopni začetnikom v obliki mobilnih aplikacij. Video material je v zadnjih nekaj letih hitro postal temelj naših virov družbenih medijev.

Vzpon družbenih medijev in efemernih filmov je povečal povpraševanje po inovativnem urejanju videa, kot je prenos portretnega video sloga, za ustvarjanje uspešnih in zanimivih videoposnetkov.

Obstoječe slikovno usmerjene tehnike imajo znatne pomanjkljivosti, ko se uporabljajo za filme, kar omejuje njihovo uporabnost pri samodejni portretni stilizaciji videa.

StyleGAN je običajna hrbtenica za razvoj modela za prenos stila portretne slike zaradi svoje zmožnosti ustvarjanja visokokakovostnih obrazov s prilagodljivim upravljanjem sloga.

Sistem, ki temelji na StyleGAN (znan tudi kot toonifikacija slike), kodira pravi obraz v latentni prostor StyleGAN in nato uporabi dobljeno stilsko kodo v drugem StyleGAN, natančno nastavljenem na naboru podatkov o umetniškem portretu, da ustvari stilizirano različico.

StyleGAN ustvarja slike z poravnanimi obrazi in v fiksni velikosti, kar ne daje prednosti dinamičnim obrazom v resničnih posnetkih. Obrezovanje obraza in poravnava v videoposnetku včasih povzročita delni obraz in nerodne kretnje. Raziskovalci imenujejo to težavo StyleGAN 'omejitev stalnih pridelkov.'

Za neporavnane obraze je bil predlagan StyleGAN3; vendar podpira le nastavljeno velikost slike.

Poleg tega je nedavna študija odkrila, da je kodiranje neporavnanih obrazov zahtevnejše kot kodiranje poravnanih obrazov. Nepravilno kodiranje obraza škoduje prenosu portretnega sloga, kar povzroča težave, kot so sprememba identitete in manjkajoče komponente v rekonstruiranih in oblikovanih okvirjih.

Kot smo že omenili, mora učinkovita tehnika za prenos portretnega video sloga obravnavati naslednje težave:

Za ohranitev realističnih gibov mora biti pristop zmožen obravnavati neporavnane obraze in različne velikosti videoposnetkov. Velika velikost videoposnetka ali širok zorni kot lahko zajame več informacij, hkrati pa prepreči, da bi se obraz premaknil iz kadra.
Za tekmovanje z današnjimi pogosto uporabljenimi pripomočki HD je potreben video visoke ločljivosti.
Uporabnikom je treba ponuditi prilagodljiv nadzor sloga, da lahko spremenijo in izberejo svojo izbiro pri razvoju realističnega sistema za interakcijo z uporabniki.

V ta namen raziskovalci predlagajo VToonify, nov hibridni okvir za video toonification. Da bi premagali omejitev nespremenljivega pridelka, raziskovalci najprej preučijo prevodno ekvivariantnost v StyleGAN.

VToonify združuje prednosti arhitekture, ki temelji na StyleGAN, in ogrodja za prevajanje slik, da doseže nastavljiv portretni video slog visoke ločljivosti.

Sledijo glavni prispevki:

Raziskovalci raziskujejo omejitev fiksnega pridelka StyleGAN in predlagajo rešitev, ki temelji na prevodni ekvivariantnosti.
Raziskovalci predstavljajo edinstveno popolnoma konvolucijsko ogrodje VToonify za nadzorovan prenos portretnega video sloga visoke ločljivosti, ki podpira neporavnane obraze in različne velikosti videoposnetkov.
Raziskovalci izdelajo VToonify na hrbtenicah Toonify in DualStyleGAN ter zgostijo hrbtenice v smislu podatkov in modela, da omogočijo prenos portretnega video sloga na podlagi zbirk in vzorcev.

Primerjava Vtoonify z drugimi najsodobnejšimi modeli

Toonify

Služi kot osnova za prenos sloga na osnovi zbirke na poravnanih ploskvah z uporabo StyleGAN. Za pridobitev slogovnih kod morajo raziskovalci poravnati obraze in obrezati 256256 fotografij za PSP. Toonify se uporablja za generiranje stiliziranega rezultata s slogovnimi kodami 1024*1024.

Nazadnje ponovno poravnajo rezultat v videu na prvotno lokacijo. Nestilizirano območje je bilo nastavljeno na črno.

Primerjava Vtoonifyja z drugimi najsodobnejšimi modeli

DualStyleGAN

Je hrbtenica za prenos slogov, ki temelji na vzorcih in temelji na StyleGAN. Uporabljajo enake tehnike predhodne in naknadne obdelave podatkov kot Toonify.

Pix2pixHD

To je model prevajanja slike v sliko, ki se običajno uporablja za zgoščevanje vnaprej usposobljenih modelov za urejanje v visoki ločljivosti. Usposablja se z uporabo seznanjenih podatkov.

Raziskovalci uporabljajo pix2pixHD kot dodatne vnose zemljevidov primerkov, saj uporablja ekstrahiran zemljevid za razčlenjevanje.

Prvo naročilo

FOM je tipičen model slikovne animacije. Učen je bil na 256256 slikah in se slabo obnese z drugimi velikostmi slik. Posledično raziskovalci najprej prilagodijo velikost video okvirjev na 256*256 za FOM za animacijo in nato spremenijo velikost rezultatov na prvotno velikost.

Za pošteno primerjavo FOM uporablja prvi stilizirani okvir svojega pristopa kot svojo referenčno sliko sloga.

DaGAN

Je model 3D animacije obraza. Uporabljajo enake metode priprave in naknadne obdelave podatkov kot FOM.

Primerjanje

prednosti

Uporablja se lahko v umetnosti, avatarjih družbenih medijev, filmih, razvedrilnem oglaševanju itd.
Vtoonify je mogoče uporabiti tudi v metaverzumu.

Omejitve

Ta metodologija izvleče tako podatke kot model iz hrbtenic, ki temeljijo na StyleGAN, kar povzroči pristranskost podatkov in modela.
Artefakte povzročajo predvsem razlike v velikosti med stiliziranim obrazom in drugimi deli.
Ta strategija je manj uspešna pri obravnavanju stvari v predelu obraza.

zaključek

Končno je VToonify ogrodje za slogovno nadzorovano tonificiranje videa visoke ločljivosti.

To ogrodje dosega odlično zmogljivost pri obdelavi videoposnetkov in omogoča širok nadzor nad strukturnim slogom, barvnim slogom in stopnjo sloga z zgoščevanjem modelov toonifikacije slik, ki temeljijo na StyleGAN, v smislu obeh sintetični podatki in mrežne strukture.

Vtoonify: prenos sloga portretnega videoposnetka visoke ločljivosti, ki ga je mogoče nadzorovati

Kaj je Vtoonify?

Kako deluje?

Omejitve StyleGAN & Predlagani Vtoonify