„Vtoonify“: valdomas didelės raiškos portreto vaizdo stiliaus perkėlimas

Turinys[Slėpti][Rodyti]

Kas yra Vtoonify?
Kaip tai veikia?
„StyleGAN“ ir siūlomo „Vtoonify“ apribojimai
„Vtoonify“ palyginimas su kitais moderniausiais modeliais+-
Privalumai+-
- Trūkumai
Išvada

Labai svarbus ir pageidautinas kompiuterinio matymo ir grafikos uždavinys yra sukurti aukščiausio kalibro kūrybingus portretinius filmus.

Nors buvo pasiūlyti keli veiksmingi portretinio vaizdo tonizavimo modeliai, pagrįsti stipriu StyleGAN, šie į vaizdą orientuoti metodai turi aiškių trūkumų, kai jie naudojami su vaizdo įrašais, pvz., fiksuotas kadro dydis, reikalavimas išlyginti veidą, neveido detalių nebuvimas. , ir laikinas nenuoseklumas.

Revoliucinė VToonify sistema naudojama sudėtingam kontroliuojamam didelės raiškos portreto vaizdo stiliaus perkėlimui spręsti.

Šiame straipsnyje išnagrinėsime naujausią VToonify tyrimą, įskaitant jo funkcionalumą, trūkumus ir kitus veiksnius.

Kas yra Vtoonify?

VToonify sistema leidžia tinkinti didelės raiškos portretų vaizdo įrašų stilių.

VToonify naudoja StyleGAN vidutinės ir didelės skyros sluoksnius, kad sukurtų aukštos kokybės meninius portretus, pagrįstus daugialypėmis turinio charakteristikomis, gautomis koduotuvo, kad būtų išsaugotos kadro detalės.

Gauta visiškai konvoliucinė architektūra kaip įvestį naudoja nesulygiuotus veidus kintamo dydžio filmuose, todėl išvestyje atsiranda viso veido sričių su tikroviškais judesiais.

Vtoonify

Ši sistema yra suderinama su dabartiniais StyleGAN pagrįstais vaizdo tonizacijos modeliais, todėl juos galima išplėsti iki vaizdo tonizavimo ir paveldi patrauklias savybes, tokias kaip reguliuojamos spalvos ir intensyvumo pritaikymas.

tai studija pristato du VToonify egzempliorius, pagrįstus Toonify ir DualStyleGAN, kad būtų galima perkelti atitinkamai kolekciją ir pavyzdinį portretų vaizdo įrašų stilių.

Išsamios eksperimentinės išvados rodo, kad siūloma VToonify sistema pranoksta esamus metodus kuriant aukštos kokybės, laike nuoseklius meninius portretinius filmus su kintamais stiliaus parametrais.

Tyrėjai pateikia Google Colab bloknotas, todėl galite susitepti rankas.

Kaip tai veikia?

Kad būtų galima perkelti reguliuojamą didelės raiškos portreto vaizdo stilių, VToonify sujungia vaizdo vertimo sistemos pranašumus su StyleGAN pagrindu sukurta sistema.

„Vtoonify“ veikia

Kad būtų galima pritaikyti skirtingus įvesties dydžius, vaizdų vertimo sistema naudoja visiškai konvoliucinius tinklus. Kita vertus, treniruojantis nuo nulio neįmanoma perduoti didelės raiškos ir kontroliuojamo stiliaus.

Iš anksto paruoštas StyleGAN modelis naudojamas StyleGAN pagrindu veikiančioje sistemoje didelės raiškos ir kontroliuojamo stiliaus perdavimui, nors jis apsiriboja fiksuotu vaizdo dydžiu ir detalių praradimu.

„StyleGAN“ modifikuotas hibridinėje sistemoje, panaikinant fiksuoto dydžio įvesties funkciją ir mažos skyros sluoksnius, todėl gaunama visiškai konvoliucinė koduotuvo-generatoriaus architektūra, panaši į vaizdo vertimo sistemos architektūrą.

Norėdami išsaugoti kadro detales, išmokykite koduotuvą išgauti kelių masto įvesties kadro turinio charakteristikas kaip papildomą turinio reikalavimą generatoriui. „Vtoonify“ paveldi StyleGAN modelio stiliaus valdymo lankstumą, įtraukdama jį į generatorių, kad būtų distiliuojami jo duomenys ir modelis.

„StyleGAN“ ir siūlomo „Vtoonify“ apribojimai

Meniniai portretai yra įprasti mūsų kasdieniame gyvenime, taip pat kūrybinėse įmonėse, tokiose kaip menas, socialinės žiniasklaidos avatarai, filmai, pramoginė reklama ir pan.

Plėtojantis gilus mokymasis technologija, dabar galima sukurti aukštos kokybės meninius portretus iš tikro gyvenimo veidų nuotraukų naudojant automatinį portreto stiliaus perkėlimą.

Yra daug sėkmingų būdų, kaip perkelti įvaizdį pagrįstą stilių, daugelis iš kurių yra lengvai pasiekiami pradedantiesiems vartotojams mobiliųjų programų pavidalu. Per pastaruosius kelerius metus vaizdo medžiaga greitai tapo pagrindine mūsų socialinės žiniasklaidos kanalų dalimi.

Socialinės žiniasklaidos ir trumpalaikių filmų atsiradimas padidino naujoviškų vaizdo įrašų redagavimo, pvz., portretinio vaizdo stiliaus perkėlimo, poreikį, kad būtų galima sukurti sėkmingus ir įdomius vaizdo įrašus.

Esami į vaizdą orientuoti metodai turi reikšmingų trūkumų, kai jie taikomi filmams, todėl ribojamas jų naudingumas automatizuotam portretinių vaizdo įrašų stilizavimui.

StyleGAN yra įprastas pagrindas kuriant portretinio vaizdo stiliaus perdavimo modelį, nes jis gali sukurti aukštos kokybės veidus su reguliuojamu stiliaus valdymu.

StyleGAN pagrįsta sistema (taip pat žinoma kaip paveikslėlio tonifikacija) užkoduoja tikrą veidą į StyleGAN latentinę erdvę ir tada pritaiko gautą stiliaus kodą kitam StyleGAN, tiksliai suderintam meninio portreto duomenų rinkinyje, kad sukurtų stilizuotą versiją.

StyleGAN kuria nuotraukas su išlygiuotais veidais ir fiksuoto dydžio, o tai neteikia pirmenybės dinamiškiems veidams realiame filmuotoje medžiagoje. Veido apkarpymas ir lygiavimas vaizdo įraše kartais sukelia dalinį veido ir nepatogių gestų poveikį. Tyrėjai šią problemą vadina „StyleGAN“ „fiksuoto pasėlių apribojimu“.

Nesulygiuotiems veidams buvo pasiūlyta StyleGAN3; tačiau palaiko tik nustatytą vaizdo dydį.

Be to, neseniai atliktas tyrimas atskleidė, kad nesulygiuotų veidų kodavimas yra sudėtingesnis nei lygiuotų veidų kodavimas. Neteisingas veido kodavimas kenkia portreto stiliaus perkėlimui, todėl gali kilti problemų, pvz., pakeisti tapatybę ir trūkstamų komponentų rekonstruotuose ir stiliaus rėmeliuose.

Kaip aptarta, efektyvi portretinio vaizdo stiliaus perdavimo technika turi išspręsti šias problemas:

Norint išsaugoti tikroviškus judesius, šis metodas turi būti tinkamas nelygiuotiems veidams ir įvairaus dydžio vaizdo įrašams. Didelis vaizdo įrašo dydis arba platus matymo kampas gali užfiksuoti daugiau informacijos, o veidas nejudėtų iš kadro.
Norint konkuruoti su šiandien dažniausiai naudojamais HD įtaisais, būtinas didelės raiškos vaizdo įrašas.
Kuriant tikrovišką vartotojo sąveikos sistemą, vartotojams turėtų būti pasiūlyta lanksti stiliaus kontrolė, kad jie galėtų keisti ir pasirinkti.

Tuo tikslu mokslininkai siūlo VToonify – naują hibridinę vaizdo tonifikavimo sistemą. Norėdami įveikti fiksuotą pasėlių apribojimą, mokslininkai pirmiausia tiria vertimo ekvivalentiškumą StyleGAN.

VToonify sujungia StyleGAN pagrįstos architektūros ir vaizdų vertimo sistemos privalumus, kad būtų pasiektas reguliuojamas didelės raiškos portreto vaizdo stiliaus perkėlimas.

Toliau pateikiami pagrindiniai indėliai:

Tyrėjai tiria StyleGAN fiksuoto pasėlių apribojimą ir siūlo sprendimą, pagrįstą vertimo ekvivalentiškumu.
Tyrėjai pristato unikalią visiškai konvoliucinę VToonify sistemą, skirtą kontroliuojamam didelės skiriamosios gebos portretinio vaizdo stiliaus perkėlimui, kuris palaiko nesuderintus veidus ir skirtingus vaizdo įrašų dydžius.
Tyrėjai konstruoja VToonify remdamiesi Toonify ir DualStyleGAN pagrindais ir sutrumpina duomenų ir modelio pagrindus, kad būtų galima perkelti kolekcijų ir pavyzdinių portretinių vaizdo įrašų stilių.

„Vtoonify“ palyginimas su kitais moderniausiais modeliais

Sušvelninti

Jis naudojamas kaip kolekcija grindžiamo stiliaus perkėlimo ant lygiuotų veidų pagrindas naudojant StyleGAN. Norėdami gauti stiliaus kodus, mokslininkai turi sulygiuoti veidus ir apkarpyti 256256 PSP nuotraukas. Toonify naudojamas stilizuotam rezultatui su 1024*1024 stiliaus kodais generuoti.

Galiausiai jie iš naujo suderina vaizdo įrašo rezultatą į pradinę vietą. Nestilizuota sritis nustatyta kaip juoda.

„Vtoonify“ palyginimas su kitais moderniausiais modeliais

DualStyleGAN

Tai yra pavyzdinio stiliaus perdavimo, pagrįsto StyleGAN, pagrindas. Jie naudoja tuos pačius išankstinio ir tolesnio duomenų apdorojimo būdus kaip ir Toonify.

Pix2pixHD

Tai vertimo iš vaizdo į vaizdą modelis, kuris dažniausiai naudojamas iš anksto paruoštiems modeliams sujungti didelės raiškos redagavimui. Jis mokomas naudojant suporuotus duomenis.

Tyrėjai naudoja pix2pixHD kaip papildomą egzempliorių žemėlapio įvestį, nes jis naudoja ištrauktą analizavimo žemėlapį.

Pirmosios eilės pasiūlymas

FOM yra tipiškas vaizdo animacijos modelis. Jis buvo apmokytas 256256 paveikslėliams ir prastai veikia su kitų dydžių vaizdais. Todėl tyrėjai pirmiausia padidina vaizdo kadrų mastelį iki 256*256, kad FOM būtų animuota, o tada pakeistų rezultatų dydį iki pradinio dydžio.

Siekiant teisingo palyginimo, FOM naudoja pirmąjį stilizuotą savo metodo kadrą kaip atskaitos stiliaus vaizdą.

DaGAN

Tai 3D veido animacijos modelis. Jie naudoja tuos pačius duomenų paruošimo ir papildomo apdorojimo metodus kaip ir FOM.

Palyginimas

Privalumai

Jis gali būti naudojamas menuose, socialinės žiniasklaidos avataruose, filmuose, pramogų reklamoje ir kt.
„Vtoonify“ taip pat gali būti naudojamas metaverse.

Trūkumai

Ši metodika iš „StyleGAN“ pagrįstų magistralių išskiria duomenis ir modelį, todėl atsiranda duomenų ir modelio paklaida.
Artefaktus dažniausiai sukelia stilizuoto veido srities ir kitų sekcijų dydžio skirtumai.
Ši strategija yra mažiau sėkminga sprendžiant reikalus veido srityje.

Išvada

Galiausiai, VToonify yra stiliaus valdomo didelės raiškos vaizdo tonifikavimo sistema.

Ši sistema užtikrina puikų našumą tvarkant vaizdo įrašus ir leidžia plačiai valdyti struktūrinį stilių, spalvų stilių ir stiliaus laipsnį, sutrumpinant StyleGAN pagrįstus vaizdo tonizacijos modelius tiek jų atžvilgiu. sintetiniai duomenys ir tinklo struktūros.

„Vtoonify“: valdomas didelės raiškos portreto vaizdo stiliaus perkėlimas

Kas yra Vtoonify?

Kaip tai veikia?

„StyleGAN“ ir siūlomo „Vtoonify“ apribojimai