Kompyuter ko'rish va grafikada eng yuqori kalibrli ijodiy portret filmlarini yaratish juda muhim va kerakli vazifadir.
Kuchli StyleGAN-ga asoslangan portret tasvirini toonifikatsiya qilish uchun bir nechta samarali modellar taklif qilingan bo'lsa-da, bu tasvirga yo'naltirilgan texnikalar videolar bilan qo'llanganda aniq kamchiliklarga ega, masalan, belgilangan ramka o'lchami, yuzni tekislash talabi, yuzga tegishli bo'lmagan tafsilotlarning yo'qligi. , va vaqtinchalik nomuvofiqlik.
Inqilobiy VToonify ramkasi qiyin boshqariladigan yuqori aniqlikdagi portret video uslubini uzatishni hal qilish uchun ishlatiladi.
Biz ushbu maqolada VToonify bo'yicha eng so'nggi tadqiqotni, jumladan uning funksionalligi, kamchiliklari va boshqa omillarni ko'rib chiqamiz.
Vtoonify nima?
VToonify ramkasi sozlanishi yuqori aniqlikdagi portret video uslubini uzatish imkonini beradi.
VToonify ramka tafsilotlarini saqlab qolish uchun kodlovchi tomonidan olingan ko'p miqyosli kontent xususiyatlariga asoslangan yuqori sifatli badiiy portretlarni yaratish uchun StyleGANning o'rta va yuqori aniqlikdagi qatlamlaridan foydalanadi.
Natijada toʻliq konvolyutsion arxitektura oʻzgaruvchan oʻlchamdagi filmlardagi tekislanmagan yuzlarni kiritish sifatida oladi, natijada chiqishda realistik harakatlarga ega butun yuz mintaqalari paydo boʻladi.
Ushbu ramka joriy StyleGAN-ga asoslangan tasvirni toonifikatsiyalash modellari bilan mos keladi, bu ularni video toonifikatsiyasiga kengaytirish imkonini beradi va sozlanishi rang va intensivlikni sozlash kabi jozibali xususiyatlarni meros qilib oladi.
bu o'rganish Toonify va DualStyleGAN-ga asoslangan VToonify-ning ikkita nusxasini mos ravishda kolleksiyaga asoslangan va namunali portret video uslubini uzatish uchun taqdim etadi.
Keng eksperimental topilmalar shuni ko'rsatadiki, taklif etilayotgan VToonify ramkasi o'zgaruvchan uslub parametrlari bilan yuqori sifatli, vaqtinchalik izchil badiiy portret filmlarini yaratishda mavjud yondashuvlardan ustundir.
Tadqiqotchilar taqdim etadilar Google Colab noutbuki, shuning uchun siz qo'llaringizni iflos qilishingiz mumkin.
Bu qanday ishlaydi?
Yuqori aniqlikdagi portret video uslubini sozlashni amalga oshirish uchun VToonify tasvirni tarjima qilish tizimi afzalliklarini StyleGAN-ga asoslangan ramka bilan birlashtiradi.
Turli xil kirish o'lchamlarini moslashtirish uchun tasvirni tarjima qilish tizimi to'liq konvolyutsion tarmoqlardan foydalanadi. Boshqa tomondan, noldan mashq qilish, yuqori aniqlikdagi va boshqariladigan uslubni uzatishni imkonsiz qiladi.
Oldindan o'rgatilgan StyleGAN modeli yuqori aniqlikdagi va boshqariladigan uslublarni uzatish uchun StyleGAN asosidagi ramkada qo'llaniladi, garchi u qat'iy rasm o'lchami va tafsilotlarni yo'qotish bilan cheklangan.
StyleGAN o'zining qattiq o'lchamli kiritish xususiyati va past aniqlikdagi qatlamlarini o'chirish orqali gibrid ramkada o'zgartiriladi, natijada tasvirni tarjima qilish tizimiga o'xshash to'liq konvolyutsion kodlovchi-generator arxitekturasi paydo bo'ladi.
Kadr tafsilotlarini saqlab qolish uchun, generatorga qo'shimcha kontent talabi sifatida kirish freymining ko'p miqyosli kontent xususiyatlarini ajratib olish uchun kodlovchini o'rgating. Vtoonify StyleGAN modelining uslubini boshqarish moslashuvchanligini uning ma'lumotlari va modelini distillash uchun generatorga qo'yish orqali meros qilib oladi.
StyleGAN va taklif qilingan Vtoonify cheklovlari
Badiiy portretlar kundalik hayotimizda, shuningdek, san'at kabi ijodiy biznesda keng tarqalgan. ijtimoiy media avatarlar, filmlar, ko'ngilochar reklama va boshqalar.
Ning rivojlanishi bilan chuqur o'rganish texnologiyasidan foydalangan holda, endi avtomatlashtirilgan portret uslubini uzatishdan foydalangan holda real hayotdagi yuz fotosuratlaridan yuqori sifatli badiiy portretlarni yaratish mumkin.
Tasvirga asoslangan uslubni uzatish uchun yaratilgan turli xil muvaffaqiyatli usullar mavjud bo'lib, ularning ko'pchiligi mobil ilovalar ko'rinishida boshlang'ich foydalanuvchilar uchun osonlik bilan mavjud. Video materiallar so'nggi bir necha yil ichida tezda bizning ijtimoiy media tasmalarining asosiy qismiga aylandi.
Ijtimoiy tarmoqlar va efemer filmlarning ko'tarilishi muvaffaqiyatli va qiziqarli videolarni yaratish uchun portret video uslubini uzatish kabi innovatsion video tahrirlashga bo'lgan talabni oshirdi.
Mavjud tasvirga yo'naltirilgan texnikalar filmlarga qo'llanilganda sezilarli kamchiliklarga ega bo'lib, ularning avtomatlashtirilgan portret video stilizatsiyasida foydaliligini cheklaydi.
StyleGAN sozlanishi uslublar bilan yuqori sifatli yuzlarni yaratish qobiliyati tufayli portret tasvir uslubini uzatish modelini ishlab chiqish uchun umumiy asosdir.
StyleGAN-ga asoslangan tizim (shuningdek, rasmni toonifikatsiya deb ataladi) StyleGAN yashirin maydoniga haqiqiy yuzni kodlaydi va natijada olingan uslub kodini stilize qilingan versiyani yaratish uchun badiiy portret ma'lumotlar to'plamida nozik sozlangan boshqa StyleGAN-ga qo'llaydi.
StyleGAN yuzlari tekislangan va qat'iy o'lchamdagi suratlarni yaratadi, bu esa real dunyo tasvirlarida dinamik yuzlarni yoqtirmaydi. Videoda yuzni kesish va tekislash baʼzan yuzning qisman koʻrinishiga va noqulay imo-ishoralarga olib keladi. Tadqiqotchilar bu masalani StyleGAN-ning "sobit ekin cheklashi" deb atashadi.
Hizalanmagan yuzlar uchun StyleGAN3 taklif qilingan; ammo, u faqat belgilangan rasm o'lchamini qo'llab-quvvatlaydi.
Bundan tashqari, yaqinda o'tkazilgan tadqiqot shuni ko'rsatdiki, tekislanmagan yuzlarni kodlash tekislangan yuzlarga qaraganda ancha qiyin. Yuzni noto'g'ri kodlash portret uslubini uzatish uchun zararli bo'lib, identifikatorni o'zgartirish va qayta tiklangan va uslublangan kadrlarda etishmayotgan komponentlar kabi muammolarga olib keladi.
Ko'rib chiqilganidek, portret video uslubini uzatishning samarali usuli quyidagi masalalarni hal qilishi kerak:
- Haqiqiy harakatlarni saqlab qolish uchun yondashuv tekislanmagan yuzlar va turli xil video o'lchamlari bilan shug'ullanishi kerak. Katta video oʻlchami yoki keng koʻrish burchagi koʻproq maʼlumot olishi mumkin, shu bilan birga yuz ramkadan tashqariga chiqmaydi.
- Bugungi kunda keng tarqalgan HD gadjetlari bilan raqobat qilish uchun yuqori aniqlikdagi video kerak.
- Haqiqiy foydalanuvchi shovqin tizimini ishlab chiqishda foydalanuvchilarga o'z tanlovini o'zgartirishi va tanlashi uchun moslashuvchan uslubni boshqarish taklif qilinishi kerak.
Shu maqsadda tadqiqotchilar VToonify, video toonifikatsiya qilish uchun yangi gibrid ramkani taklif qilishadi. Ruxsat etilgan ekin cheklovlarini bartaraf etish uchun tadqiqotchilar birinchi navbatda StyleGAN-da tarjima ekvivariatsiyasini o'rganadilar.
VToonify sozlanishi yuqori aniqlikdagi portret video uslubini uzatishga erishish uchun StyleGAN-ga asoslangan arxitektura va tasvirni tarjima qilish tizimi afzalliklarini birlashtiradi.
Quyidagilar asosiy hissalar:
- Tadqiqotchilar StyleGAN-ning o'zgarmas ekin cheklanishini o'rganadilar va tarjima ekvivariatsiyasiga asoslangan yechim taklif qiladilar.
- Tadqiqotchilar tekislanmagan yuzlar va turli xil video oʻlchamlarini qoʻllab-quvvatlaydigan yuqori aniqlikdagi portret video uslubini boshqariladigan oʻtkazish uchun noyob toʻliq konvolyutsion VToonify ramkasini taqdim etadilar.
- Tadqiqotchilar VToonify-ni Toonify va DualStyleGAN asoslarida quradilar va to'plamga asoslangan va namunali portret video uslubini uzatishni ta'minlash uchun ma'lumotlar va model nuqtai nazaridan magistrallarni birlashtiradi.
Vtoonify-ni boshqa zamonaviy modellar bilan solishtirish
Tushuntirish
U StyleGAN yordamida hizalangan yuzlarda to'plamga asoslangan uslublarni uzatish uchun asos bo'lib xizmat qiladi. Uslub kodlarini olish uchun tadqiqotchilar yuzlarni tekislashlari va PSP uchun 256256 ta fotosuratni kesishlari kerak. Toonify 1024*1024 uslub kodlari bilan stilize qilingan natijani yaratish uchun ishlatiladi.
Nihoyat, ular videodagi natijani asl joyiga qayta tekislaydilar. Stilsiz maydon qora rangga o'rnatildi.
DualStyleGAN
Bu StyleGAN-ga asoslangan namunaviy uslublarni uzatish uchun asosdir. Ular Toonify bilan bir xil ma'lumotlarni qayta ishlashdan oldingi va keyingi usullardan foydalanadilar.
Pix2pixHD
Bu tasvirni tasvirga tarjima qilish modeli boʻlib, u yuqori aniqlikdagi tahrirlash uchun oldindan oʻrgatilgan modellarni birlashtirish uchun keng qoʻllaniladi. U juftlashtirilgan ma'lumotlar yordamida o'qitiladi.
Tadqiqotchilar pix2pixHD dan qo'shimcha xarita kiritishlari sifatida foydalanadilar, chunki u ajratilgan tahliliy xaritadan foydalanadi.
Birinchi tartib harakati
FOM odatiy tasvir animatsiyasi modelidir. U 256256 ta rasmga oʻrgatilgan va boshqa tasvir oʻlchamlari bilan yomon ishlaydi. Natijada, tadqiqotchilar birinchi navbatda FOM animatsiyasi uchun video ramkalarni 256 * 256 gacha o'lchaydilar va keyin natijalarni asl hajmiga o'zgartiradilar.
Adolatli taqqoslash uchun, FOM o'zining uslubiy tasviri sifatida o'z yondashuvining birinchi stilize qilingan ramkasidan foydalanadi.
DaGAN
Bu 3D yuz animatsiyasi modeli. Ular FOM bilan bir xil ma'lumotlarni tayyorlash va qayta ishlash usullaridan foydalanadilar.
afzalliklari
- U san'at, ijtimoiy media avatarlari, filmlar, ko'ngilochar reklama va hokazolarda ishlatilishi mumkin.
- Vtoonify-dan metaverse-da ham foydalanish mumkin.
cheklashlar
- Ushbu metodologiya StyleGAN-ga asoslangan magistrallardan ma'lumotlarni ham, modelni ham ajratib oladi, bu esa ma'lumotlar va modelning noto'g'riligiga olib keladi.
- Artefaktlar asosan stilize qilingan yuz mintaqasi va boshqa qismlar o'rtasidagi o'lchamdagi farqlardan kelib chiqadi.
- Ushbu strategiya yuz mintaqasidagi narsalar bilan shug'ullanganda unchalik muvaffaqiyatli emas.
Xulosa
Va nihoyat, VToonify - bu uslublar bilan boshqariladigan yuqori aniqlikdagi videoni toonifikatsiya qilish uchun ramka.
Ushbu ramka videolarni qayta ishlashda yuqori samaradorlikka erishadi va StyleGAN-ga asoslangan tasvirni toonifikatsiyalash modellarini ikkala nuqtai nazardan birlashtirish orqali strukturaviy uslub, rang uslubi va uslub darajasini keng nazorat qilish imkonini beradi. sintetik ma'lumotlar va tarmoq tuzilmalari.
Leave a Reply