Hè un compitu cruciale è desideratu in a visione di l'informatica è a grafica per pruduce filmi di ritratti creativi di u più altu calibre.
Ancu s'ellu sò stati pruposti parechji mudelli efficaci per a tonificazione di l'imaghjini ritratti basati nantu à u putente StyleGAN, sti tecniche orientate à l'imaghjini anu svantaghji chjaru quandu sò usati cù video, cum'è a dimensione di u quadru fissu, u requisitu per l'allineamentu di a faccia, l'assenza di dettagli non-facciali. , è incoerenza tempurale.
Un quadru rivoluzionariu VToonify hè utilizatu per affruntà u difficiuli trasferimentu di stili video di ritratti à alta risoluzione cuntrullati.
Esamineremu u studiu più recente nantu à VToonify in questu articulu, cumprese a so funziunalità, i svantaghji è altri fattori.
Cosa hè Vtoonify?
U framework VToonify permette una trasmissione in stile video di ritratti in alta risoluzione persunalizabile.
VToonify usa i strati di risoluzione media è alta di StyleGAN per creà ritratti artistici di alta qualità basati nantu à e caratteristiche di cuntenutu multi-scala recuperate da un codificatore per mantene i dettagli di u quadru.
L'architettura risultante cumpletamente cunvoluzionale piglia facce non allineate in filmi di dimensione variabile cum'è input, risultatu in regioni di faccia intera cù movimenti realistichi in output.
Stu quadru hè cumpatibile cù i mudelli attuali di toonificazione di l'imaghjini basati in StyleGAN, chì li permettenu di esse allargati à a toonificazione video, è eredita caratteristiche attraenti cum'è a persunalizazione di culore è intensità regulabile.
chistu studiu introduce duie instantiations di VToonify basate in Toonify è DualStyleGAN per u trasferimentu di stili video di ritratti basatu in cullezzione è esemplare, rispettivamente.
I risultati sperimentali estensivi mostranu chì u quadru VToonify prupostu supera l'approcciu esistenti in a creazione di filmi di ritratti artistici d'alta qualità, coerenti temporalmente cù paràmetri di stili variabili.
I ricercatori furniscenu Notebook Google Colab, cusì pudete mette e vostre mani brutte nantu à questu.
Cumu viaghja?
Per realizà u trasferimentu di stili video di ritratti d'alta risoluzione regulabile, VToonify combina i vantaghji di u quadru di traduzzione di l'imaghjini cù u quadru basatu in StyleGAN.
Per accoglie diverse dimensioni di input, u sistema di traduzzione di l'imaghjini impiega reti cumpletamente cunvoluzionali. Training from scratch, invece, rende impussibile a trasmissione di stile à alta risoluzione è cuntrullata.
U mudellu StyleGAN pre-addestratu hè utilizatu in u quadru basatu in StyleGAN per un trasferimentu di stile cuntrullatu è d'alta risoluzione, ancu s'ellu hè limitatu à a dimensione di l'immagine fissa è a perdita di dettagli.
StyleGAN hè mudificatu in u quadru hibridu sguassendu a so funzione di input di dimensione fissa è i strati di bassa risoluzione, risultatu in una architettura generatore di codificatore cumpletamente cunvoluzionale simile à quella di u quadru di traduzzione di l'imagine.
Per mantene i dettagli di u quadru, furmà un codificatore per estrae e caratteristiche di cuntenutu multi-scala di u quadru di input cum'è un requisitu di cuntenutu supplementu à u generatore. Vtoonify eredita a flessibilità di cuntrollu di stile di u mudellu StyleGAN mettendulu in u generatore per distillà i so dati è u mudellu.
Limitazioni di StyleGAN & Proposed Vtoonify
I ritratti artistici sò cumuni in a nostra vita di ogni ghjornu è in l'imprese creativi cum'è l'arte, suciali, di cumunicazione avatars, filmi, publicità di divertimentu, etc.
Cù u sviluppu di studiu prufunnu Tecnulugia, hè avà pussibule di creà ritratti artistici d'alta qualità da ritratti di a faccia reale cù u trasferimentu automatizatu di stili di ritratti.
Ci hè una varietà di modi riesciuti creati per u trasferimentu di stile basatu in l'imaghjini, assai di quali sò facilmente accessibili à l'utilizatori principianti in forma di applicazioni mobili. U materiale video hè diventatu rapidamente un pilastru di i nostri feed suciali in l'ultimi anni.
L'ascesa di e social media è di i filmi effimeri hà aumentatu a dumanda di editazione di video innovativa, cum'è u trasferimentu di stile di video di ritratti, per generà video di successu è interessanti.
I tecnichi esistenti orientati à l'imaghjini anu svantaghji significativi quandu sò appiicati à i filmi, limitendu a so utilità in a stilizazione automatizata di video di ritratti.
StyleGAN hè una spina cumuni per u sviluppu di un mudellu di trasferimentu di stili di ritratti di ritratti per via di a so capacità di creà facce d'alta qualità cù una gestione di stile regulabile.
Un sistema basatu in StyleGAN (cunnisciutu ancu com'è toonificazione di l'imaghjini) codifica una faccia vera in u spaziu latente StyleGAN è poi applicà u codice di stile resultanti à un altru StyleGAN sintonizatu nantu à u dataset di ritratti artisticu per creà una versione stilizzata.
StyleGAN crea ritratti cù facce allineate è in una dimensione fissa, chì ùn favurisce micca e facce dinamiche in filmati di u mondu reale. U tagliu di a faccia è l'allineamentu in u video a volte risultanu in una faccia parziale è gesti imbarazzati. I ricercatori chjamanu stu prublema StyleGAN "restrizzione di culturi fissi".
Per facci unaligned, StyleGAN3 hè statu prupostu; in ogni modu, sustene solu una dimensione di stampa stabilita.
Inoltre, un studiu recente hà scupertu chì a codificazione di e facce non allineate hè più sfida di e facce allineate. A codificazione di faccia sbagliata hè dannusu à u trasferimentu di stili di ritratti, chì si traduce in prublemi cum'è l'alterazione di l'identità è i cumpunenti mancanti in i frames ricustruiti è stilati.
Comu discutitu, una tecnica efficaci per u trasferimentu di stili video di ritratti deve trattà i seguenti prublemi:
- Per priservà i muvimenti realistichi, l'approcciu deve esse capace di trattà cù facci unaligned è variate dimensioni video. Una grande dimensione di video, o un angulu largu di vista, pò catturà più infurmazione mentre mantene a faccia da u muvimentu fora di u quadru.
- Per cumpete cù i gadgets HD d'oghje cumunimenti utilizati, hè necessariu un video d'alta risoluzione.
- Un cuntrollu di stile flessibile deve esse offertu à l'utilizatori per cambià è sceglie a so scelta quandu si sviluppanu un sistema di interazzione realisticu di l'utilizatori.
À questu scopu, i circadori suggerenu VToonify, un novu quadru hibridu per a tonificazione video. Per superà a limitazione di culturi fissi, i circadori studianu prima l'equivarianza di traduzzione in StyleGAN.
VToonify combina i benefici di l'architettura basata in StyleGAN è u quadru di traduzzione di l'imaghjini per ottene u trasferimentu di stili video di ritratti d'alta risoluzione regulabile.
Eccu i principali cuntributi:
- I ricercatori investiganu a limitazione di a coltura fissa di StyleGAN è prupone una soluzione basata nantu à l'equivarianza di a traduzzione.
- I ricercatori presentanu un quadru VToonify cumpletamente cunvoluzionale unicu per u trasferimentu di stili video di ritratti in alta risoluzione cuntrullati chì sustene facce non allineate è diverse dimensioni di video.
- I ricercatori custruiscenu VToonify nantu à e spine di Toonify è DualStyleGAN è condensanu e spine in termini di dati è mudelli per attivà u trasferimentu di stili video di ritratti basatu in cullezzione è esemplare.
Paragunendu Vtoonify cù altri mudelli di punta
Toonify
Serve cum'è a basa per u trasferimentu di stile basatu in cullezzione nantu à e facce allineate cù StyleGAN. Per ricuperà i codici di stile, i circadori devenu allineà e facce è tagliate 256256 foto per PSP. Toonify hè adupratu per generà un risultatu stilizatu cù codici di stile 1024 * 1024.
Infine, riallineanu u risultatu in u video à u so locu originale. L'area micca stilizzata hè stata pusata in neru.
DualStyleGAN
Hè una spina per u trasferimentu di stile basatu in esemplariu basatu in StyleGAN. Adupranu i stessi tecnichi di pre-e post-processamentu di dati cum'è Toonify.
Pix2pixHD
Hè un mudellu di traduzzione da l'imaghjini à l'imaghjini chì hè comunmente utilizatu per cundensà mudelli pre-addestrati per l'edituri d'alta risoluzione. Hè addestratu cù dati accoppiati.
I ricercatori utilizanu pix2pixHD cum'è i so inputs di mappa d'istanza supplementari postu chì usa una mappa di analisi estratta.
Movimentu di u Primu Ordine
FOM hè un mudellu tipicu di animazione di l'imaghjini. Hè stata addestrata nantu à 256256 stampi è funziona pocu cù altre dimensioni di l'imaghjini. In cunsiquenza, i circadori prima scalanu i frames di video à 256 * 256 per FOM à l'animazione è poi resize i risultati à a so dimensione originale.
Per un paragone ghjustu, FOM impiega u primu quadru stilizatu di u so approcciu cum'è a so maghjina di stile di riferimentu.
DaGAN
Hè un mudellu di animazione facciale 3D. Adupranu i stessi metudi di preparazione di dati è postprocessing cum'è FOM.
vantaghji
- Pò esse impiegatu in l'arti, l'avatar di e social media, i filmi, a publicità di divertimentu, è cusì.
- Vtoonify pò ancu esse utilizatu in u metaversu.
Limitazioni
- Questa metodulugia estrae i dati è u mudellu da i backbones basati in StyleGAN, risultatu in dati è bias di mudellu.
- L'artefatti sò causati soprattuttu da differenze di dimensione trà a regione di a faccia stilizzata è l'altri sezzioni.
- Questa strategia hè menu successu quandu si tratta di e cose in a regione di a faccia.
cunchiusioni
Infine, VToonify hè un framework per a toonificazione di video in alta risoluzione cuntrullata in stile.
Stu quadru ottene un grande rendimentu in a gestione di i video è permette un cuntrollu largu nantu à u stilu strutturale, u stilu di culore è u gradu di stile cundensendu mudelli di tonificazione di l'imaghjini basati in StyleGAN in quantu à i so dui. dati sintetici e strutture di rete.
Lascia un Audiolibro