Vtoonify: Pemindahan Gaya Video Potret Resolusi Tinggi Boleh Dikawal

Jadual Kandungan[Sembunyi][Tunjukkan]

Apakah Vtoonify?
Bagaimana ia berfungsi?
Had StyleGAN & Cadangan Vtoonify
Membandingkan Vtoonify dengan model terkini yang lain+-
kelebihan+-
- Batasan
Kesimpulan

Ia adalah tugas yang penting dan wajar dalam penglihatan komputer dan grafik untuk menghasilkan filem potret kreatif yang berkaliber tertinggi.

Walaupun beberapa model berkesan untuk toonifikasi imej potret berdasarkan StyleGAN yang kuat telah dicadangkan, teknik berorientasikan imej ini mempunyai kelemahan yang jelas apabila digunakan dengan video, seperti saiz bingkai tetap, keperluan untuk penjajaran muka, ketiadaan butiran bukan muka. , dan ketidakkonsistenan temporal.

Rangka kerja VToonify yang revolusioner digunakan untuk menangani pemindahan gaya video potret resolusi tinggi yang sukar dikawal.

Kami akan mengkaji kajian terbaru tentang VToonify dalam artikel ini, termasuk kefungsiannya, kelemahan dan faktor lain.

Apakah Vtoonify?

Rangka kerja VToonify membenarkan penghantaran gaya video potret resolusi tinggi yang boleh disesuaikan.

VToonify menggunakan lapisan peleraian pertengahan dan tinggi StyleGAN untuk mencipta potret artistik berkualiti tinggi berdasarkan ciri kandungan berbilang skala yang diambil oleh pengekod untuk mengekalkan butiran bingkai.

Seni bina konvolusi sepenuhnya yang terhasil mengambil muka tidak sejajar dalam filem bersaiz berubah-ubah sebagai input, menghasilkan kawasan seluruh muka dengan pergerakan realistik dalam output.

Vtoonify

Rangka kerja ini serasi dengan model toonifikasi imej berasaskan StyleGAN semasa, membolehkan model ini diperluaskan kepada toonifikasi video, dan mewarisi ciri menarik seperti penyesuaian warna dan keamatan boleh laras.

ini mengkaji memperkenalkan dua instantiasi VToonify berdasarkan Toonify dan DualStyleGAN untuk pemindahan gaya video potret berasaskan koleksi dan contoh.

Penemuan eksperimen yang meluas menunjukkan bahawa rangka kerja VToonify yang dicadangkan mengatasi pendekatan sedia ada dalam membuat filem potret artistik yang berkualiti tinggi dan koheren secara temporal dengan parameter gaya berubah-ubah.

Penyelidik menyediakan Buku nota Google Colab, supaya anda boleh mengotorkan tangan anda.

Bagaimana ia berfungsi?

Untuk mencapai pemindahan gaya video potret resolusi tinggi boleh laras, VToonify menggabungkan kelebihan rangka kerja terjemahan imej dengan rangka kerja berasaskan StyleGAN.

Vtoonify Bekerja

Untuk menampung saiz input yang berbeza-beza, sistem terjemahan imej menggunakan rangkaian konvolusi sepenuhnya. Latihan dari awal, sebaliknya, menjadikan penghantaran gaya resolusi tinggi dan terkawal mustahil.

Model StyleGAN yang telah terlatih digunakan dalam rangka kerja berasaskan StyleGAN untuk pemindahan gaya resolusi tinggi dan terkawal, walaupun ia terhad kepada saiz gambar tetap dan kehilangan butiran.

StyleGAN diubah suai dalam rangka kerja hibrid dengan memadamkan ciri input bersaiz tetap dan lapisan peleraian rendah, menghasilkan seni bina penjana pengekod konvolusi sepenuhnya serupa dengan rangka kerja terjemahan imej.

Untuk mengekalkan butiran bingkai, latih pengekod untuk mengekstrak ciri kandungan berskala bingkai input sebagai keperluan kandungan tambahan kepada penjana. Vtoonify mewarisi fleksibiliti kawalan gaya model StyleGAN dengan memasukkannya ke dalam penjana untuk menyaring kedua-dua data dan modelnya.

Had StyleGAN & Cadangan Vtoonify

Potret artistik adalah perkara biasa dalam kehidupan seharian kita serta dalam perniagaan kreatif seperti seni, media sosial avatar, filem, pengiklanan hiburan, dan sebagainya.

Dengan perkembangan pembelajaran mendalam teknologi, kini boleh mencipta potret artistik berkualiti tinggi daripada foto muka sebenar menggunakan pemindahan gaya potret automatik.

Terdapat pelbagai cara yang berjaya dicipta untuk pemindahan gaya berasaskan imej, kebanyakannya mudah diakses oleh pengguna permulaan dalam bentuk aplikasi mudah alih. Bahan video telah menjadi tunjang utama suapan media sosial kami sejak beberapa tahun yang lalu.

Kebangkitan media sosial dan filem fana telah meningkatkan permintaan untuk penyuntingan video yang inovatif, seperti pemindahan gaya video potret, untuk menjana video yang berjaya dan menarik.

Teknik berorientasikan imej sedia ada mempunyai kelemahan yang ketara apabila digunakan pada filem, mengehadkan kegunaannya dalam penggayaan video potret automatik.

StyleGAN ialah tulang belakang biasa untuk membangunkan model pemindahan gaya gambar potret kerana kapasitinya untuk mencipta wajah berkualiti tinggi dengan pengurusan gaya boleh laras.

Sistem berasaskan StyleGAN (juga dikenali sebagai toonifikasi gambar) mengekod wajah sebenar ke dalam ruang terpendam StyleGAN dan kemudian menggunakan kod gaya yang terhasil pada StyleGAN lain yang diperhalusi pada set data potret artistik untuk mencipta versi yang digayakan.

StyleGAN mencipta gambar dengan muka sejajar dan pada saiz tetap, yang tidak memihak kepada wajah dinamik dalam rakaman dunia sebenar. Pangkasan muka dan penjajaran dalam video kadangkala menghasilkan muka separa dan gerak isyarat yang janggal. Penyelidik memanggil isu ini sebagai 'sekatan tanaman tetap' StyleGAN.

Untuk muka tidak sejajar, StyleGAN3 telah dicadangkan; namun, ia hanya menyokong saiz gambar yang ditetapkan.

Tambahan pula, kajian baru-baru ini mendapati bahawa pengekodan muka tidak sejajar adalah lebih mencabar daripada wajah sejajar. Pengekodan muka yang salah berbahaya kepada pemindahan gaya potret, mengakibatkan isu seperti perubahan identiti dan kehilangan komponen dalam bingkai yang dibina semula dan digayakan.

Seperti yang dibincangkan, teknik yang cekap untuk pemindahan gaya video potret mesti menangani isu berikut:

Untuk mengekalkan pergerakan yang realistik, pendekatan ini mesti dapat menangani muka tidak sejajar dan saiz video yang berbeza-beza. Saiz video yang besar, atau sudut pandangan yang luas, boleh menangkap lebih banyak maklumat sambil mengekalkan wajah daripada bergerak keluar dari bingkai.
Untuk bersaing dengan alat HD yang biasa digunakan hari ini, video resolusi tinggi diperlukan.
Kawalan gaya fleksibel harus ditawarkan untuk pengguna mengubah dan memilih pilihan mereka apabila membangunkan sistem interaksi pengguna yang realistik.

Untuk tujuan itu, penyelidik mencadangkan VToonify, rangka kerja hibrid novel untuk toonifikasi video. Untuk mengatasi kekangan tanaman tetap, penyelidik terlebih dahulu mengkaji kesetaraan terjemahan dalam StyleGAN.

VToonify menggabungkan faedah seni bina berasaskan StyleGAN dan rangka kerja terjemahan imej untuk mencapai pemindahan gaya video potret resolusi tinggi boleh laras.

Berikut adalah sumbangan utama:

Penyelidik menyiasat kekangan tanaman tetap StyleGAN dan mencadangkan penyelesaian berdasarkan kesetaraan terjemahan.
Penyelidik mempersembahkan rangka kerja VToonify konvolusi penuh yang unik untuk pemindahan gaya video potret resolusi tinggi terkawal yang menyokong muka tidak sejajar dan saiz video yang berbeza.
Penyelidik membina VToonify pada tulang belakang Toonify dan DualStyleGAN dan memekatkan tulang belakang dari segi kedua-dua data dan model untuk membolehkan pemindahan gaya video potret berasaskan koleksi dan berasaskan contoh.

Membandingkan Vtoonify dengan model terkini yang lain

Memberi toonifikasi

Ia berfungsi sebagai asas untuk pemindahan gaya berasaskan koleksi pada muka sejajar menggunakan StyleGAN. Untuk mendapatkan semula kod gaya, penyelidik mesti menyelaraskan muka dan memangkas 256256 foto untuk PSP. Toonify digunakan untuk menjana hasil yang digayakan dengan kod gaya 1024*1024.

Akhirnya, mereka menyelaraskan semula hasil dalam video ke lokasi asalnya. Kawasan yang tidak digayakan telah ditetapkan kepada hitam.

Membandingkan Vtoonify Dengan Model Terkemuka Lain

DualStyleGAN

Ia adalah tulang belakang untuk pemindahan gaya berasaskan contoh berdasarkan StyleGAN. Mereka menggunakan teknik pra dan pasca pemprosesan data yang sama seperti Toonify.

Pix2pixHD

Ia ialah model terjemahan imej ke imej yang biasa digunakan untuk memekatkan model pra-latihan untuk pengeditan resolusi tinggi. Ia dilatih menggunakan data berpasangan.

Penyelidik menggunakan pix2pixHD sebagai input peta contoh tambahannya kerana ia menggunakan peta penghuraian yang diekstrak.

Usul Perintah Pertama

FOM ialah model animasi imej biasa. Ia dilatih pada 256256 gambar dan berprestasi buruk dengan saiz imej lain. Akibatnya, penyelidik mula-mula menskalakan bingkai video kepada 256*256 untuk FOM kepada animasi dan kemudian mengubah saiz hasil kepada saiz asalnya.

Untuk perbandingan yang saksama, FOM menggunakan bingkai gaya pertama pendekatannya sebagai imej gaya rujukannya.

DaGAN

Ia ialah model animasi muka 3D. Mereka menggunakan kaedah penyediaan data dan pasca pemprosesan yang sama seperti FOM.

Comarision

kelebihan

Ia boleh digunakan dalam seni, avatar media sosial, filem, pengiklanan hiburan, dan sebagainya.
Vtoonify juga boleh digunakan dalam metaverse.

Batasan

Metodologi ini mengekstrak kedua-dua data dan model daripada tulang belakang berasaskan StyleGAN, menghasilkan bias data dan model.
Artifak kebanyakannya disebabkan oleh perbezaan saiz antara kawasan muka yang digayakan dan bahagian lain.
Strategi ini kurang berjaya apabila berurusan dengan perkara di kawasan muka.

Kesimpulan

Akhir sekali, VToonify ialah rangka kerja untuk toonifikasi video resolusi tinggi yang dikawal gaya.

Rangka kerja ini mencapai prestasi hebat dalam mengendalikan video dan membolehkan kawalan luas ke atas gaya struktur, gaya warna dan tahap gaya dengan memekatkan model toonifikasi imej berasaskan StyleGAN dari segi kedua-dua data sintetik dan struktur rangkaian.

Vtoonify: Pemindahan Gaya Video Potret Resolusi Tinggi yang boleh dikawal

Apakah Vtoonify?

Bagaimana ia berfungsi?

Had StyleGAN & Cadangan Vtoonify