Është një detyrë thelbësore dhe e dëshirueshme në vizionin kompjuterik dhe grafikë për të prodhuar filma kreativë portrete të kalibrit më të lartë.
Megjithëse janë propozuar disa modele efektive për tonifikimin e imazhit të portretit bazuar në StyleGAN të fuqishëm, këto teknika të orientuara nga imazhi kanë të meta të qarta kur përdoren me video, të tilla si madhësia fikse e kornizës, kërkesa për shtrirjen e fytyrës, mungesa e detajeve jo të fytyrës. , dhe mospërputhje kohore.
Një kornizë revolucionare VToonify përdoret për të trajtuar transferimin e vështirë të kontrolluar të stilit të videove të portretit me rezolucion të lartë.
Ne do të shqyrtojmë studimin më të fundit mbi VToonify në këtë artikull, duke përfshirë funksionalitetin, të metat dhe faktorë të tjerë.
Çfarë është Vtoonify?
Korniza VToonify lejon transmetimin e personalizueshëm të videove në stilin e portretit me rezolucion të lartë.
VToonify përdor shtresat me rezolucion të mesëm dhe të lartë të StyleGAN për të krijuar portrete artistike me cilësi të lartë bazuar në karakteristikat e përmbajtjes në shumë shkallë të marra nga një kodues për të ruajtur detajet e kornizës.
Arkitektura rezultante plotësisht konvolucionale merr si hyrje fytyra jo të rreshtuara në filmat me madhësi të ndryshueshme, duke rezultuar në rajone të të gjithë fytyrës me lëvizje realiste në dalje.
Ky kuadër është i pajtueshëm me modelet aktuale të tonifikimit të imazheve të bazuara në StyleGAN, duke i lejuar ato të zgjerohen në tonifikimin e videove dhe të trashëgojnë karakteristika tërheqëse siç janë përshtatja e rregullueshme e ngjyrave dhe e intensitetit.
kjo studim prezanton dy instanca të VToonify bazuar në Toonify dhe DualStyleGAN për transferimin e stilit të videove të portreteve të bazuara në koleksione dhe të bazuara në ekzemplarë, përkatësisht.
Gjetjet e gjera eksperimentale tregojnë se korniza e propozuar VToonify tejkalon qasjet ekzistuese në bërjen e filmave me portrete artistike me cilësi të lartë, koherente me parametra stili të ndryshueshëm.
Studiuesit ofrojnë Fletorja e Google Colab, kështu që ju mund të ndotni duart mbi të.
Si funksionon kjo gjë?
Për të realizuar një transferim të rregullueshëm të stilit të videove të portretit me rezolucion të lartë, VToonify kombinon avantazhet e kornizës së përkthimit të imazheve me kornizën e bazuar në StyleGAN.
Për të akomoduar madhësi të ndryshme të hyrjes, sistemi i përkthimit të imazheve përdor rrjete plotësisht konvolucionare. Stërvitja nga e para, nga ana tjetër, e bën të pamundur transmetimin me rezolucion të lartë dhe stil të kontrolluar.
Modeli StyleGAN i trajnuar paraprakisht përdoret në kornizën e bazuar në StyleGAN për transferimin e stilit me rezolucion të lartë dhe të kontrolluar, megjithëse është i kufizuar në madhësinë fikse të figurës dhe humbjet e detajeve.
StyleGAN modifikohet në kuadrin hibrid duke fshirë veçorinë e tij të hyrjes me përmasa fikse dhe shtresat me rezolucion të ulët, duke rezultuar në një arkitekturë plotësisht konvolucionale të gjeneratorit kodues të ngjashëm me atë të kornizës së përkthimit të imazhit.
Për të ruajtur detajet e kornizës, trajnoni një kodues për të nxjerrë karakteristikat e përmbajtjes në shumë shkallë të kornizës hyrëse si një kërkesë shtesë për përmbajtjen e gjeneratorit. Vtoonify trashëgon fleksibilitetin e kontrollit të stilit të modelit StyleGAN duke e vendosur atë në gjenerator për të distiluar të dhënat dhe modelin e tij.
Kufizimet e StyleGAN & Vtoonify e propozuar
Portretet artistike janë të zakonshme në jetën tonë të përditshme, si dhe në bizneset krijuese si arti, Mediat sociale avatarë, filma, reklama argëtuese, e kështu me radhë.
Me zhvillimin e të mësuarit e thellë teknologjisë, tani është e mundur të krijohen portrete artistike me cilësi të lartë nga fotot e fytyrave të jetës reale duke përdorur transferimin e automatizuar të stilit të portretit.
Ekzistojnë një sërë mënyrash të suksesshme të krijuara për transferimin e stilit të bazuar në imazh, shumë prej të cilave janë lehtësisht të arritshme për përdoruesit fillestarë në formën e aplikacioneve celulare. Materiali video është bërë me shpejtësi një bazë e burimeve tona të mediave sociale gjatë disa viteve të fundit.
Rritja e mediave sociale dhe filmave kalimtarë ka rritur kërkesën për redaktimin inovativ të videos, siç është transferimi i stilit të videove me portret, për të gjeneruar video të suksesshme dhe interesante.
Teknikat ekzistuese të orientuara nga imazhi kanë disavantazhe të konsiderueshme kur aplikohen në filma, duke kufizuar dobinë e tyre në stilizimin e automatizuar të videove të portreteve.
StyleGAN është një bazë e zakonshme për zhvillimin e një modeli të transferimit të stilit të fotografisë së portretit për shkak të aftësisë së tij për të krijuar fytyra me cilësi të lartë me menaxhim të stilit të rregullueshëm.
Një sistem i bazuar në StyleGAN (i njohur gjithashtu si tonifikim i figurës) kodon një fytyrë të vërtetë në hapësirën latente StyleGAN dhe më pas aplikon kodin e stilit që rezulton në një tjetër StyleGAN të akorduar mirë në grupin e të dhënave të portretit artistik për të krijuar një version të stilizuar.
StyleGAN krijon fotografi me fytyra të rreshtuara dhe me një madhësi fikse, gjë që nuk favorizon fytyrat dinamike në pamjet e botës reale. Prerja dhe shtrirja e fytyrës në video ndonjëherë rezulton në një fytyrë të pjesshme dhe gjeste të sikletshme. Studiuesit e quajnë këtë çështje si 'kufizim fiks i të korrave' të StyleGAN.
Për fytyrat e padrejtuara, është propozuar StyleGAN3; megjithatë, ai mbështet vetëm një madhësi të caktuar fotografie.
Për më tepër, një studim i kohëve të fundit zbuloi se kodimi i fytyrave të pa rreshtuara është më sfidues sesa fytyrat e rreshtuara. Kodimi i gabuar i fytyrës është i dëmshëm për transferimin e stilit të portretit, duke rezultuar në probleme të tilla si ndryshimi i identitetit dhe komponentët që mungojnë në kornizat e rindërtuara dhe të stiluara.
Siç u diskutua, një teknikë efikase për transferimin e stilit të videos së portretit duhet të trajtojë çështjet e mëposhtme:
- Për të ruajtur lëvizjet realiste, qasja duhet të jetë në gjendje të trajtojë fytyrat e pabarabarta dhe madhësive të ndryshme të videos. Një madhësi e madhe videoje ose një kënd i gjerë shikimi, mund të kapë më shumë informacion duke e mbajtur fytyrën të mos lëvizë jashtë kornizës.
- Për të konkurruar me pajisjet e sotme HD të përdorura zakonisht, është e nevojshme video me rezolucion të lartë.
- Duhet të ofrohet kontroll fleksibël i stilit që përdoruesit të ndryshojnë dhe të zgjedhin zgjedhjen e tyre kur zhvillojnë një sistem realist ndërveprimi me përdoruesit.
Për këtë qëllim, studiuesit sugjerojnë VToonify, një kornizë hibride e re për tonifikimin e videos. Për të kapërcyer kufizimin fiks të të korrave, studiuesit së pari studiojnë ekuivariancën e përkthimit në StyleGAN.
VToonify kombinon përfitimet e arkitekturës së bazuar në StyleGAN dhe kornizës së përkthimit të imazhit për të arritur transferim të rregullueshëm të stilit të videove të portretit me rezolucion të lartë.
Më poshtë janë kontributet kryesore:
- Studiuesit hetojnë kufizimin e prodhimit fiks të StyleGAN dhe propozojnë një zgjidhje të bazuar në ekuivariancën e përkthimit.
- Studiuesit paraqesin një kornizë unike plotësisht konvolucionale VToonify për transferimin e kontrolluar të stilit të videove të portretit me rezolucion të lartë që mbështet fytyra të palidhura dhe madhësi të ndryshme video.
- Studiuesit ndërtojnë VToonify në shtyllat kurrizore të Toonify dhe DualStyleGAN dhe kondensojnë shtyllat kurrizore për sa i përket të dhënave dhe modelit për të mundësuar transferimin e stilit të videove të portreteve të bazuara në koleksione dhe të bazuara në ekzemplarë.
Krahasimi i Vtoonify me modele të tjera më të avancuara
Toonifikoj
Ai shërben si bazë për transferimin e stilit të bazuar në koleksion në fytyrat e rreshtuara duke përdorur StyleGAN. Për të tërhequr kodet e stilit, studiuesit duhet të rreshtojnë fytyrat dhe të presin 256256 foto për PSP. Toonify përdoret për të gjeneruar një rezultat të stilizuar me kode stili 1024*1024.
Më në fund, ata e riorganizojnë rezultatin në video në vendndodhjen e tij origjinale. Zona e pa stilizuar është vendosur në të zezë.
DualStyleGAN
Është një shtyllë për transferimin e stilit të bazuar në ekzemplarë bazuar në StyleGAN. Ata përdorin të njëjtat teknika para dhe pas përpunimit të të dhënave si Toonify.
Pix2pixHD
Është një model përkthimi nga imazhi në imazh që përdoret zakonisht për të kondensuar modele të trajnuara paraprakisht për redaktim me rezolucion të lartë. Trajnohet duke përdorur të dhëna të çiftuara.
Studiuesit përdorin pix2pixHD si inputet shtesë të hartës së instancës së tij pasi përdor hartën e analizuar të nxjerrë.
Lëvizja e rendit të parë
FOM është një model tipik i animacionit të imazhit. Është trajnuar në 256256 fotografi dhe performon dobët me madhësi të tjera imazhi. Si pasojë, studiuesit së pari i shkallëzojnë kornizat e videos në 256*256 për FOM në animacion dhe më pas ndryshojnë madhësinë e rezultateve në madhësinë e tyre origjinale.
Për një krahasim të drejtë, FOM përdor kornizën e parë të stilizuar të qasjes së saj si imazhin e stilit të saj referues.
DaGAN
Është një model i animacionit 3D të fytyrës. Ata përdorin të njëjtat metoda të përgatitjes dhe paspërpunimit të të dhënave si FOM.
Përparësitë
- Mund të përdoret në art, avatar të mediave sociale, filma, reklama argëtuese, e kështu me radhë.
- Vtoonify mund të përdoret gjithashtu në metaverse.
Kufizimet
- Kjo metodologji nxjerr si të dhënat ashtu edhe modelin nga shtyllat kurrizore të bazuara në StyleGAN, duke rezultuar në paragjykime të të dhënave dhe modelit.
- Artifaktet shkaktohen kryesisht nga ndryshimet në madhësi midis rajonit të stilizuar të fytyrës dhe seksioneve të tjera.
- Kjo strategji është më pak e suksesshme kur merret me gjërat në rajonin e fytyrës.
Përfundim
Së fundi, VToonify është një kornizë për tonifikimin e videove me rezolucion të lartë të kontrolluar nga stili.
Ky kuadër arrin performancë të shkëlqyer në trajtimin e videove dhe mundëson kontroll të gjerë mbi stilin strukturor, stilin e ngjyrave dhe shkallën e stilit duke kondensuar modelet e tonifikimit të imazhit të bazuara në StyleGAN për sa i përket të dyjave. të dhëna sintetike dhe strukturat e rrjetit.
Lini një Përgjigju