Este o sarcină crucială și de dorit în viziunea computerizată și grafică să produci filme creative de portret de cel mai înalt calibru.
Deși au fost propuse mai multe modele eficiente pentru tonificarea imaginii portret bazate pe puternicul StyleGAN, aceste tehnici orientate spre imagine au dezavantaje clare atunci când sunt utilizate cu videoclipuri, cum ar fi dimensiunea fixă a cadrului, cerințele pentru alinierea feței, absența detaliilor non-faciale. , și inconsistență temporală.
Un cadru revoluționar VToonify este folosit pentru a rezolva dificilul transfer controlat de stil video portret de înaltă rezoluție.
Vom examina cel mai recent studiu despre VToonify în acest articol, inclusiv funcționalitatea, dezavantajele și alți factori.
Ce este Vtoonify?
Cadrul VToonify permite o transmisie personalizabilă în stil video portret de înaltă rezoluție.
VToonify folosește straturile de rezoluție medie și înaltă ale StyleGAN pentru a crea portrete artistice de înaltă calitate, bazate pe caracteristicile conținutului la scară multiplă, preluate de un codificator pentru a păstra detaliile cadrului.
Arhitectura complet convoluțională rezultată preia ca intrare fețe nealiniate din filmele de dimensiuni variabile, rezultând regiuni întregi fețe cu mișcări realiste în ieșire.
Acest cadru este compatibil cu modelele actuale de tonificare a imaginilor bazate pe StyleGAN, permițându-le să fie extinse la tonificarea video și moștenește caracteristici atractive, cum ar fi personalizarea reglabilă a culorii și a intensității.
Acest studiu introduce două instanțieri ale VToonify bazate pe Toonify și DualStyleGAN pentru transferul stilului video portret bazat pe colecție și, respectiv, pe baza de exemplare.
Descoperirile experimentale ample arată că cadrul propus VToonify depășește abordările existente în realizarea de filme de portret artistic de înaltă calitate, coerente temporal, cu parametri de stil variabili.
Cercetătorii oferă Blocnotes Google Colab, astfel încât să vă murdăriți mâinile pe el.
Cum functioneaza?
Pentru a realiza un transfer reglabil de înaltă rezoluție în stil video portret, VToonify combină avantajele cadrului de traducere a imaginii cu cadrul bazat pe StyleGAN.
Pentru a se adapta la diferite dimensiuni de intrare, sistemul de traducere a imaginii folosește rețele complet convoluționale. Antrenamentul de la zero, pe de altă parte, face imposibilă transmiterea stilului controlat și de înaltă rezoluție.
Modelul StyleGAN pre-antrenat este utilizat în cadrul bazat pe StyleGAN pentru transfer de stil de înaltă rezoluție și controlat, deși este limitat la dimensiunea fixă a imaginii și pierderile de detalii.
StyleGAN este modificat în cadrul hibrid prin ștergerea caracteristicii de intrare de dimensiuni fixe și a straturilor de rezoluție scăzută, rezultând o arhitectură generatoare de codificator complet convoluțional similară cu cea a cadrului de traducere a imaginii.
Pentru a menține detaliile cadrului, antrenați un codificator pentru a extrage caracteristicile de conținut multi-scale ale cadrului de intrare ca o cerință suplimentară de conținut pentru generator. Vtoonify moștenește flexibilitatea de control al stilului modelului StyleGAN prin introducerea acestuia în generator pentru a distila atât datele, cât și modelul.
Limitări ale StyleGAN și Vtoonify propus
Portretele artistice sunt comune în viața noastră de zi cu zi, precum și în afacerile creative, cum ar fi arta, social media avatare, filme, publicitate de divertisment și așa mai departe.
Odată cu dezvoltarea învățare profundă tehnologie, acum este posibil să creați portrete artistice de înaltă calitate din fotografii reale ale feței utilizând transferul automat al stilului portretului.
Există o varietate de modalități de succes create pentru transferul stilului bazat pe imagini, multe dintre acestea fiind ușor accesibile utilizatorilor începători sub formă de aplicații mobile. Materialul video a devenit rapid un pilon al fluxurilor noastre de social media în ultimii câțiva ani.
Creșterea rețelelor sociale și a filmelor efemere a crescut cererea de editare video inovatoare, cum ar fi transferul în stilul video portret, pentru a genera videoclipuri de succes și interesante.
Tehnicile existente orientate spre imagine au dezavantaje semnificative atunci când sunt aplicate la filme, limitându-le utilitatea în stilizarea automată a portretelor video.
StyleGAN este o coloană vertebrală obișnuită pentru dezvoltarea unui model de transfer în stil de portret datorită capacității sale de a crea fețe de înaltă calitate, cu management reglabil al stilului.
Un sistem bazat pe StyleGAN (cunoscut și sub numele de toonificare a imaginii) codifică o față reală în spațiul latent StyleGAN și apoi aplică codul de stil rezultat unui alt StyleGAN reglat fin pe setul de date portret artistic pentru a crea o versiune stilizată.
StyleGAN creează imagini cu fețe aliniate și la o dimensiune fixă, ceea ce nu favorizează fețele dinamice în filmările din lumea reală. Decuparea feței și alinierea în videoclip duc uneori la o față parțială și la gesturi incomode. Cercetătorii numesc această problemă StyleGAN „restricție de recoltare fixă”.
Pentru fețele nealiniate, a fost propus StyleGAN3; totuși, acceptă doar o dimensiune setată a imaginii.
Mai mult, un studiu recent a descoperit că codificarea fețelor nealiniate este mai dificilă decât fețele aliniate. Codificarea incorectă a feței este dăunătoare pentru transferul stilului portret, ceea ce duce la probleme precum alterarea identității și lipsa componentelor din cadrele reconstruite și stilizate.
După cum sa discutat, o tehnică eficientă pentru transferul stilului video portret trebuie să se ocupe de următoarele probleme:
- Pentru a păstra mișcările realiste, abordarea trebuie să poată face față fețelor nealiniate și dimensiunilor video variate. O dimensiune video mare sau un unghi larg de vedere poate capta mai multe informații, împiedicând în același timp fața să iasă din cadru.
- Pentru a concura cu gadgeturile HD utilizate în mod obișnuit, este necesar un videoclip de înaltă rezoluție.
- Ar trebui oferit un control flexibil al stilului pentru ca utilizatorii să-și modifice și să aleagă alegerea atunci când dezvoltă un sistem realist de interacțiune cu utilizatorul.
În acest scop, cercetătorii sugerează VToonify, un nou cadru hibrid pentru tonificarea video. Pentru a depăși constrângerea de recoltă fixă, cercetătorii studiază mai întâi echivarianța traducerii în StyleGAN.
VToonify combină beneficiile arhitecturii bazate pe StyleGAN și cadrul de traducere a imaginii pentru a obține un transfer reglabil de înaltă rezoluție în stilul video portret.
Următoarele sunt contribuțiile majore:
- Cercetătorii investighează constrângerea de recoltare fixă a StyleGAN și propun o soluție bazată pe echivarianța translației.
- Cercetătorii prezintă un cadru unic VToonify complet convoluțional pentru transfer controlat de stil video portret de înaltă rezoluție, care acceptă fețe nealiniate și diferite dimensiuni video.
- Cercetătorii construiesc VToonify pe coloana vertebrală Toonify și DualStyleGAN și condensează coloana vertebrală atât în ceea ce privește datele, cât și modelul pentru a permite transferul stilului video portret bazat pe colecție și pe baza de exemplare.
Comparând Vtoonify cu alte modele de ultimă generație
Toonify
Acesta servește drept bază pentru transferul stilului bazat pe colecții pe fețele aliniate folosind StyleGAN. Pentru a prelua codurile de stil, cercetătorii trebuie să alinieze fețele și să decupeze 256256 de fotografii pentru PSP. Toonify este folosit pentru a genera un rezultat stilizat cu coduri de stil 1024*1024.
În cele din urmă, realiniază rezultatul din videoclip la locația sa inițială. Zona nestilizată a fost setată la negru.
DualStyleGAN
Este o coloană vertebrală pentru transferul de stil bazat pe exemplare bazat pe StyleGAN. Ei folosesc aceleași tehnici de pre- și post-procesare a datelor ca și Toonify.
Pix2pixHD
Este un model de traducere imagine-la-imagine care este utilizat în mod obișnuit pentru a condensa modele pre-antrenate pentru editare de înaltă rezoluție. Este antrenat folosind date împerecheate.
Cercetătorii folosesc pix2pixHD ca intrări suplimentare ale hărții de instanță, deoarece utilizează harta de analiză extrasă.
Moțiune de prim ordin
FOM este un model tipic de animație de imagine. A fost antrenat pe 256256 de imagini și funcționează slab cu alte dimensiuni de imagine. În consecință, cercetătorii scala mai întâi cadrele video la 256*256 pentru FOM la animație și apoi redimensionează rezultatele la dimensiunea lor originală.
Pentru o comparație corectă, FOM folosește primul cadru stilizat al abordării sale ca imagine de stil de referință.
DaGAN
Este un model de animație 3D a feței. Ei folosesc aceleași metode de pregătire și postprocesare a datelor ca și FOM.
Avantaje
- Poate fi folosit în artă, avatare rețele sociale, filme, publicitate de divertisment și așa mai departe.
- Vtoonify poate fi utilizat și în metavers.
Limitări
- Această metodologie extrage atât datele, cât și modelul din coloana vertebrală bazată pe StyleGAN, rezultând o prejudecată a datelor și a modelului.
- Artefactele sunt cauzate în principal de diferențele de dimensiune dintre regiunea feței stilizate și celelalte secțiuni.
- Această strategie are mai puțin succes atunci când se ocupă de lucruri din regiunea feței.
Concluzie
În cele din urmă, VToonify este un cadru pentru tonificare video de înaltă rezoluție controlată de stil.
Acest cadru realizează performanțe excelente în manipularea videoclipurilor și permite un control larg asupra stilului structural, stilului de culoare și gradului de stil prin condensarea modelelor de tonificare a imaginilor bazate pe StyleGAN în ceea ce privește atât date sintetice și structuri de rețea.
Lasă un comentariu