Vtoonify: Trasferiment ta' Stil tal-Vidjo Ritratt b'Riżoluzzjoni Għolja Kontrollabbli

Werrej[Aħbi][Uri]

X'inhu Vtoonify?
Kif taħdem?
Limitazzjonijiet ta 'StyleGAN & Vtoonify Propost
Tqabbil ta 'Vtoonify ma' mudelli oħra ta 'l-aħħar teknoloġija+-
vantaġġi+-
- Limitazzjonijiet
konklużjoni

Huwa kompitu kruċjali u mixtieq fil-viżjoni tal-kompjuter u l-grafika li tipproduċi films ta 'ritratti kreattivi tal-ogħla kalibru.

Għalkemm ġew proposti diversi mudelli effettivi għat-tonifikazzjoni tal-immaġni tar-ritratti bbażati fuq l-StyleGAN qawwi, dawn it-tekniki orjentati lejn l-immaġni għandhom żvantaġġi ċari meta jintużaw ma 'vidjows, bħad-daqs tal-qafas fiss, ir-rekwiżit għall-allinjament tal-wiċċ, in-nuqqas ta' dettalji mhux tal-wiċċ. , u inkonsistenza temporali.

Jintuża qafas rivoluzzjonarju VToonify biex jindirizza t-trasferiment diffiċli tal-istil tal-vidjo tar-ritratti b'riżoluzzjoni għolja kkontrollata.

Aħna se neżaminaw l-aktar studju riċenti dwar VToonify f'dan l-artikolu, inklużi l-funzjonalità tiegħu, l-iżvantaġġi, u fatturi oħra.

X'inhu Vtoonify?

Il-qafas VToonify jippermetti trasmissjoni ta 'stil ta' vidjo ritratt b'riżoluzzjoni għolja personalizzabbli.

VToonify juża s-saffi ta 'riżoluzzjoni medja u għolja ta' StyleGAN biex joħloq ritratti artistiċi ta 'kwalità għolja bbażati fuq karatteristiċi ta' kontenut fuq skala multipla rkuprati minn encoder biex iżomm id-dettalji tal-qafas.

L-arkitettura kompletament konvoluzzjonali li tirriżulta tieħu uċuħ mhux allinjati f'films ta 'daqs varjabbli bħala input, li jirriżultaw f'reġjuni ta' wiċċ kollu b'movimenti realistiċi fl-output.

Vtoonify

Dan il-qafas huwa kompatibbli mal-mudelli attwali tat-tonifikazzjoni tal-immaġni bbażati fuq StyleGAN, li jippermettilhom li jiġu estiżi għal toonification tal-vidjo, u jiret karatteristiċi attraenti bħall-personalizzazzjoni tal-kulur u l-intensità aġġustabbli.

Din il studju tintroduċi żewġ istanziazzjonijiet ta 'VToonify ibbażati fuq Toonify u DualStyleGAN għal trasferiment ta' stil ta 'ritratti ta' ritratt ibbażat fuq ġbir u eżemplari, rispettivament.

Sejbiet sperimentali estensivi juru li l-qafas VToonify propost jegħleb l-approċċi eżistenti fil-produzzjoni ta 'films ta' ritratti artistiċi ta 'kwalità għolja u temporalment koerenti b'parametri ta' stil varjabbli.

Ir-riċerkaturi jipprovdu l- Notebook Google Colab, sabiex inti tista 'tikseb idejk maħmuġ fuqha.

Kif taħdem?

Biex twettaq it-trasferiment tal-istil tal-vidjo ritratt b'riżoluzzjoni għolja aġġustabbli, VToonify jgħaqqad il-vantaġġi tal-qafas tat-traduzzjoni tal-immaġni mal-qafas ibbażat fuq StyleGAN.

Vtoonify Ħidma

Biex takkomoda daqsijiet ta' input differenti, is-sistema tat-traduzzjoni tal-immaġni timpjega netwerks kompletament konvoluzzjonali. It-taħriġ mill-bidu, min-naħa l-oħra, jagħmel impossibbli trasmissjoni ta 'stil ta' riżoluzzjoni għolja u kkontrollata.

Il-mudell StyleGAN imħarreġ minn qabel jintuża fil-qafas ibbażat fuq StyleGAN għal trasferiment ta 'stil b'riżoluzzjoni għolja u kkontrollat, għalkemm huwa limitat għal daqs ta' stampa fiss u telf ta 'dettall.

StyleGAN huwa modifikat fil-qafas ibridu billi tħassar il-karatteristika ta 'input ta' daqs fiss u saffi ta 'riżoluzzjoni baxxa, li jirriżulta f'arkitettura ta' encoder-ġeneratur kompletament konvoluzzjonali simili għal dik tal-qafas tat-traduzzjoni tal-immaġni.

Biex iżżomm id-dettalji tal-qafas, ħarreġ encoder biex estratti karatteristiċi ta 'kontenut fuq skala multipla tal-qafas ta' input bħala rekwiżit ta 'kontenut addizzjonali għall-ġeneratur. Vtoonify jiret il-flessibbiltà tal-kontroll tal-istil tal-mudell StyleGAN billi tpoġġiha fil-ġeneratur biex tiddistilla kemm id-dejta kif ukoll il-mudell tagħha.

Limitazzjonijiet ta 'StyleGAN & Vtoonify Propost

Ir-ritratti artistiċi huma komuni fil-ħajja tagħna ta’ kuljum kif ukoll f’negozji kreattivi bħall-arti, midja soċjali avatars, films, reklamar ta 'divertiment, eċċ.

Bl-iżvilupp ta ' tagħlim fil-fond teknoloġija, issa huwa possibbli li jinħolqu ritratti artistiċi ta 'kwalità għolja minn ritratti tal-wiċċ tal-ħajja reali bl-użu ta' trasferiment awtomatizzat tal-istil tar-ritratti.

Hemm varjetà ta 'modi ta' suċċess maħluqa għal trasferiment ta 'stil ibbażat fuq l-immaġni, li ħafna minnhom huma faċilment aċċessibbli għall-utenti tal-bidu fil-forma ta' applikazzjonijiet mobbli. Il-materjal tal-vidjo malajr sar pedament tal-feeds tal-midja soċjali tagħna matul l-aħħar snin.

Iż-żieda tal-midja soċjali u l-films effimeri żiedet id-domanda għall-editjar tal-vidjo innovattiv, bħat-trasferiment tal-istil tal-vidjo tar-ritratti, biex jiġġenera vidjows ta 'suċċess u interessanti.

Tekniki eżistenti orjentati lejn l-immaġini għandhom żvantaġġi sinifikanti meta jiġu applikati għall-films, u jillimitaw l-utilità tagħhom fl-istilizzazzjoni awtomatizzata tal-vidjow tar-ritratti.

StyleGAN huwa sinsla komuni għall-iżvilupp ta 'mudell ta' trasferiment ta 'stil ta' stampa tar-ritratti minħabba l-kapaċità tiegħu li joħloq uċuħ ta 'kwalità għolja b'ġestjoni ta' stil aġġustabbli.

Sistema bbażata fuq StyleGAN (magħrufa wkoll bħala toonification tal-istampa) tikkodifika wiċċ reali fl-ispazju moħbi StyleGAN u mbagħad tapplika l-kodiċi tal-istil li jirriżulta għal StyleGAN ieħor irfinat fuq is-sett tad-dejta tar-ritratti artistiċi biex toħloq verżjoni stilizzata.

StyleGAN joħloq stampi b'uċuħ allinjati u f'daqs fiss, li ma jiffavorixxix uċuħ dinamiċi f'filmati tad-dinja reali. Il-ħsad tal-wiċċ u l-allinjament fil-vidjo kultant jirriżultaw f'wiċċ parzjali u ġesti skomdi. Ir-riċerkaturi jsejħu din il-kwistjoni 'restrizzjoni ta' uċuħ tar-raba' ta' StyleGAN.'

Għal uċuħ mhux allinjati, StyleGAN3 ġie propost; madankollu, jappoġġja biss daqs ta 'stampa stabbilit.

Barra minn hekk, studju reċenti skopra li l-kodifikazzjoni ta 'uċuħ mhux allinjati hija aktar ta' sfida minn uċuħ allinjati. Kodifikazzjoni tal-wiċċ mhux korretta hija ta 'ħsara għat-trasferiment tal-istil tar-ritratti, li tirriżulta fi kwistjonijiet bħal alterazzjoni tal-identità u komponenti neqsin fil-frejms rikostruwiti u stilizzati.

Kif diskuss, teknika effiċjenti għat-trasferiment tal-istil tal-vidjow tar-ritratti għandha tieħu ħsieb il-kwistjonijiet li ġejjin:

Biex tippreserva movimenti realistiċi, l-approċċ għandu jkun kapaċi jittratta uċuħ mhux allinjati u daqsijiet varjati tal-vidjo. Daqs kbir tal-vidjo, jew angolu wiesa' tal-vista, jistgħu jaqbdu aktar informazzjoni filwaqt li jżommu l-wiċċ milli jimxi 'l barra mill-qafas.
Biex tikkompeti mal-aġġeġġi HD komunement utilizzati tal-lum, huwa meħtieġ vidjo b'riżoluzzjoni għolja.
Għandu jiġi offrut kontroll tal-istil flessibbli għall-utenti biex ibiddlu u jagħżlu l-għażla tagħhom meta jiżviluppaw sistema ta 'interazzjoni tal-utent realistika.

Għal dak il-għan, ir-riċerkaturi jissuġġerixxu VToonify, qafas ibridu ġdid għat-tonifikazzjoni tal-vidjo. Biex tingħeleb ir-restrizzjoni fissa tal-għelejjel, ir-riċerkaturi l-ewwel jistudjaw l-ekwivarjanza tat-traduzzjoni fi StyleGAN.

VToonify jgħaqqad il-benefiċċji tal-arkitettura bbażata fuq StyleGAN u l-qafas tat-traduzzjoni tal-immaġini biex jinkiseb trasferiment aġġustabbli tal-istil tal-vidjo tar-ritratti b'riżoluzzjoni għolja.

Dawn li ġejjin huma l-kontribuzzjonijiet ewlenin:

Ir-riċerkaturi jinvestigaw ir-restrizzjoni ta' uċuħ tar-raba' fissi ta' StyleGAN u jipproponu soluzzjoni bbażata fuq l-ekwivarjanza tat-traduzzjoni.
Ir-riċerkaturi jippreżentaw qafas uniku VToonify kompletament konvoluzzjonali għal trasferiment ikkontrollat ta 'stil tal-vidjo tar-ritratti b'riżoluzzjoni għolja li jappoġġja uċuħ mhux allinjati u daqsijiet differenti tal-vidjo.
Ir-riċerkaturi jibnu VToonify fuq is-sinsla ta 'Toonify u DualStyleGAN u jikkondensaw is-sinsla f'termini kemm ta' data u mudell biex jippermettu t-trasferiment tal-istil tal-vidjo tar-ritratti bbażat fuq ġbir u eżemplari.

Tqabbil ta 'Vtoonify ma' mudelli oħra ta 'l-aħħar teknoloġija

Toonify

Isservi bħala l-pedament għat-trasferiment tal-istil ibbażat fuq il-ġbir fuq uċuħ allinjati bl-użu ta 'StyleGAN. Biex jirkupraw il-kodiċijiet tal-istil, ir-riċerkaturi għandhom jallinjaw l-uċuħ u jaqtgħu 256256 ritratti għal PSP. Toonify jintuża biex jiġġenera riżultat stilizzat b'kodiċi ta 'stil 1024 * 1024.

Fl-aħħarnett, jerġgħu jallinjaw ir-riżultat fil-vidjo mal-post oriġinali tiegħu. Iż-żona mhux stilizzata ġiet issettjata għal iswed.

Tqabbil ta' Vtoonify ma' Mudelli Oħrajn tal-Istat tal-Arti

DualStyleGAN

Hija sinsla għal trasferiment ta 'stil ibbażat fuq eżemplari bbażat fuq StyleGAN. Huma jużaw l-istess tekniki ta' qabel u ta' wara l-ipproċessar tad-dejta bħal Toonify.

Pix2pixHD

Huwa mudell ta 'traduzzjoni minn immaġini għal immaġni li huwa komunement użat biex jikkondensa mudelli mħarrġa minn qabel għal editjar b'riżoluzzjoni għolja. Huwa mħarreġ bl-użu ta 'data paired.

Ir-riċerkaturi jużaw pix2pixHD bħala l-inputs addizzjonali tal-mappa tal-istanza tiegħu peress li juża mappa tal-parsing estratta.

Ewwel Ordni Mozzjoni

FOM huwa mudell tipiku ta 'animazzjoni ta' immaġini. Ġie mħarreġ fuq 256256 stampi u jaħdem ħażin b'daqsijiet oħra ta 'immaġni. Bħala konsegwenza, ir-riċerkaturi l-ewwel skala l-frejms tal-vidjo għal 256 * 256 għal FOM għal animazzjoni u mbagħad ridimensjona r-riżultati għad-daqs oriġinali tagħhom.

Għal paragun ġust, FOM juża l-ewwel qafas stilizzat tal-approċċ tiegħu bħala l-immaġni tal-istil ta 'referenza tiegħu.

DaGAN

Huwa mudell ta 'animazzjoni tal-wiċċ 3D. Huma jużaw l-istess metodi ta' preparazzjoni u postproċessar tad-dejta bħall-FOM.

Kumbinazzjoni

vantaġġi

Jista 'jintuża fl-arti, avatars tal-midja soċjali, films, reklamar ta' divertiment, eċċ.
Vtoonify jista 'jintuża wkoll fil-metaverse.

Limitazzjonijiet

Din il-metodoloġija tiġbed kemm id-dejta kif ukoll il-mudell mis-sinsla bbażati fuq StyleGAN, li tirriżulta f'preġudizzju tad-dejta u tal-mudell.
L-artifacts huma kkawżati l-aktar minn differenzi fid-daqs bejn ir-reġjun tal-wiċċ stilizzat u s-sezzjonijiet l-oħra.
Din l-istrateġija hija inqas suċċess meta tittratta affarijiet fir-reġjun tal-wiċċ.

konklużjoni

Fl-aħħarnett, VToonify huwa qafas għal toonification tal-vidjo b'riżoluzzjoni għolja kkontrollata mill-istil.

Dan il-qafas jikseb prestazzjoni kbira fl-immaniġġjar tal-vidjows u jippermetti kontroll wiesa' fuq l-istil strutturali, l-istil tal-kulur, u l-grad tal-istil billi jikkondensa mudelli ta 'tonifikazzjoni tal-immaġni bbażati fuq StyleGAN f'termini kemm tagħhom. data sintetika u strutturi tan-netwerk.

Vtoonify: Trasferiment tal-Istil tal-Vidjo Ritratt b'Riżoluzzjoni Għolja Kontrollabbli

X'inhu Vtoonify?

Kif taħdem?

Limitazzjonijiet ta 'StyleGAN & Vtoonify Propost