Ən yüksək çaplı kreativ portret filmləri hazırlamaq kompüter görmə və qrafika sahəsində həlledici və arzu olunan vəzifədir.
Güclü StyleGAN-a əsaslanan portret təsvirinin tonlaşdırılması üçün bir neçə effektiv model təklif olunsa da, bu təsvir yönümlü üsullar videolarla istifadə edildikdə sabit çərçivə ölçüsü, üzün hizalanması tələbi, üz olmayan detalların olmaması kimi aydın çatışmazlıqlara malikdir. , və müvəqqəti uyğunsuzluq.
Çətin idarə olunan yüksək keyfiyyətli portret video stilinin ötürülməsinin həlli üçün inqilabi VToonify çərçivəsi istifadə olunur.
Bu məqalədə VToonify ilə bağlı ən son araşdırmanı, o cümlədən funksionallığı, çatışmazlıqları və digər amilləri araşdıracağıq.
Vtoonify nədir?
VToonify çərçivəsi fərdiləşdirilə bilən yüksək keyfiyyətli portret video stilinin ötürülməsinə imkan verir.
VToonify, çərçivə təfərrüatlarını saxlamaq üçün kodlayıcı tərəfindən əldə edilən çoxmiqyaslı məzmun xüsusiyyətlərinə əsaslanan yüksək keyfiyyətli bədii portretlər yaratmaq üçün StyleGAN-ın orta və yüksək ayırdetmə qatlarından istifadə edir.
Nəticə olan tam konvolyusiyaya malik arxitektura dəyişən ölçülü filmlərdə düzülməmiş üzləri giriş kimi qəbul edir, nəticədə çıxışda real hərəkətlər olan bütün üz bölgələri yaranır.
Bu çərçivə cari StyleGAN-a əsaslanan təsvirin toonizasiya modelləri ilə uyğun gəlir, onları video toonizasiyaya genişləndirməyə imkan verir və tənzimlənən rəng və intensivliyin fərdiləşdirilməsi kimi cəlbedici xüsusiyyətləri miras alır.
bu öyrənmək kolleksiya əsaslı və nümunəvi portret video üslubunun ötürülməsi üçün müvafiq olaraq Toonify və DualStyleGAN əsasında VToonify-ın iki nümunəsini təqdim edir.
Geniş eksperimental tapıntılar göstərir ki, təklif olunan VToonify çərçivəsi dəyişən üslub parametrləri ilə yüksək keyfiyyətli, müvəqqəti əlaqəli bədii portret filmlərinin hazırlanmasında mövcud yanaşmalardan üstündür.
Tədqiqatçılar təqdim edirlər Google Colab notebook, ona görə də əllərinizi çirkləndirə bilərsiniz.
Necə işləyir?
Tənzimlənən yüksək keyfiyyətli portret video üslubunun ötürülməsini həyata keçirmək üçün VToonify təsvirin tərcüməsi çərçivəsinin üstünlüklərini StyleGAN əsaslı çərçivə ilə birləşdirir.
Müxtəlif daxiletmə ölçülərini yerləşdirmək üçün təsvirin tərcümə sistemi tam konvolyusiya şəbəkələrindən istifadə edir. Sıfırdan məşq, əksinə, yüksək qətnamə və idarə olunan üslub ötürülməsini qeyri-mümkün edir.
Əvvəlcədən öyrədilmiş StyleGAN modeli, sabit şəkil ölçüsü və təfərrüat itkiləri ilə məhdudlaşsa da, yüksək qətnamə və idarə olunan üslub ötürmə üçün StyleGAN əsaslı çərçivədə istifadə olunur.
StyleGAN, sabit ölçülü daxiletmə xüsusiyyətini və aşağı rezolyusiyaya malik təbəqələri silməklə hibrid çərçivədə dəyişdirilir, nəticədə təsvirin tərcüməsi çərçivəsinə bənzər tam konvolyusiyaya malik kodlayıcı-generator arxitekturası əldə edilir.
Çərçivə təfərrüatlarını qorumaq üçün, generatora əlavə məzmun tələbi kimi giriş çərçivəsinin çoxmiqyaslı məzmun xüsusiyyətlərini çıxarmaq üçün kodlayıcı öyrədin. Vtoonify həm məlumatlarını, həm də modelini distillə etmək üçün onu generatora yerləşdirməklə StyleGAN modelinin üsluba nəzarət çevikliyini miras alır.
StyleGAN və Təklif olunan Vtoonify məhdudiyyətləri
Bədii portretlər gündəlik həyatımızda olduğu kimi, sənət, sosial media avatarlar, filmlər, əyləncə reklamları və s.
İnkişafı ilə dərin öyrənmə texnologiyası ilə, indi avtomatlaşdırılmış portret üslubunun ötürülməsindən istifadə edərək real həyatda üz fotolarından yüksək keyfiyyətli bədii portretlər yaratmaq mümkündür.
Şəkil əsaslı üslubun ötürülməsi üçün yaradılmış müxtəlif uğurlu yollar var ki, onların bir çoxu yeni başlayan istifadəçilər üçün mobil proqramlar şəklində asanlıqla əldə edilə bilər. Video material sürətlə son bir neçə il ərzində sosial media lentlərimizin əsas dayağı oldu.
Sosial medianın və efemer filmlərin yüksəlişi uğurlu və maraqlı videolar yaratmaq üçün portret video üslubunun ötürülməsi kimi innovativ video montajına tələbatı artırıb.
Mövcud təsvir yönümlü üsullar filmlərə tətbiq edildikdə əhəmiyyətli çatışmazlıqlara malikdir və onların avtomatlaşdırılmış portret video stilizasiyasında faydalılığını məhdudlaşdırır.
StyleGAN tənzimlənən üslub idarəçiliyi ilə yüksək keyfiyyətli üzlər yaratmaq qabiliyyətinə görə portret şəkil üslubunun ötürülməsi modelinin işlənib hazırlanması üçün ümumi əsasdır.
StyleGAN əsaslı sistem (həmçinin şəklin toonizasiyası kimi tanınır) real üzü StyleGAN gizli məkanına kodlayır və sonra nəticədə stil kodunu stilizə edilmiş versiya yaratmaq üçün bədii portret məlumat dəstində dəqiq tənzimlənmiş başqa StyleGAN-a tətbiq edir.
StyleGAN üzləri düzlənmiş və sabit ölçüdə şəkillər yaradır ki, bu da real dünya çəkilişlərində dinamik üzlərə üstünlük vermir. Videoda üzün kəsilməsi və düzülməsi bəzən qismən üz və yöndəmsiz jestlərlə nəticələnir. Tədqiqatçılar bu məsələni StyleGAN-ın 'sabit məhsul məhdudiyyəti' adlandırırlar.
Düzləşdirilməmiş üzlər üçün StyleGAN3 təklif edilmişdir; lakin o, yalnız müəyyən edilmiş şəkil ölçüsünü dəstəkləyir.
Bundan əlavə, bu yaxınlarda aparılan bir araşdırma, hizalanmamış üzlərin kodlaşdırılmasının düzlənmiş üzlərdən daha çətin olduğunu aşkar etdi. Yanlış üz kodlaşdırması portret üslubunun ötürülməsinə zərərlidir, nəticədə şəxsiyyət dəyişikliyi və yenidən qurulmuş və üslublu çərçivələrdə çatışmayan komponentlər kimi problemlər yaranır.
Müzakirə edildiyi kimi, portret video üslubunun ötürülməsi üçün səmərəli texnika aşağıdakı məsələləri həll etməlidir:
- Real hərəkətləri qorumaq üçün yanaşma düzlənməmiş üzlər və müxtəlif video ölçüləri ilə məşğul ola bilməlidir. Böyük bir video ölçüsü və ya geniş baxış bucağı üzün çərçivədən kənara çıxmasına mane olmaqla daha çox məlumat əldə edə bilər.
- Bu gün tez-tez istifadə olunan HD cihazları ilə rəqabət aparmaq üçün yüksək keyfiyyətli video lazımdır.
- İstifadəçilərə real istifadəçi qarşılıqlı əlaqə sistemini inkişaf etdirərkən öz seçimlərini dəyişmək və seçmək üçün çevik üslub nəzarəti təklif edilməlidir.
Bu məqsədlə tədqiqatçılar VToonify, video toonification üçün yeni hibrid çərçivəni təklif edirlər. Sabit məhsul məhdudiyyətini aradan qaldırmaq üçün tədqiqatçılar əvvəlcə StyleGAN-da tərcümə ekvivariasiyasını öyrənirlər.
VToonify, tənzimlənən yüksək keyfiyyətli portret video stilinin ötürülməsinə nail olmaq üçün StyleGAN əsaslı arxitekturanın üstünlüklərini və təsvirin tərcüməsi çərçivəsini birləşdirir.
Əsas töhfələr aşağıdakılardır:
- Tədqiqatçılar StyleGAN-ın sabit məhsul məhdudiyyətini araşdırır və tərcümə ekvivariasiyasına əsaslanan bir həll təklif edirlər.
- Tədqiqatçılar nizamlanmamış üzləri və müxtəlif video ölçülərini dəstəkləyən idarə olunan yüksək rezolyusiyaya malik portret video stilinin ötürülməsi üçün unikal tam konvolyusiyaya malik VToonify çərçivəsini təqdim edirlər.
- Tədqiqatçılar VToonify-ı Toonify və DualStyleGAN-ın onurğa sütununda qurur və kolleksiyaya əsaslanan və nümunəvi portret video üslubunun ötürülməsini təmin etmək üçün həm məlumat, həm də model baxımından onurğa sütunlarını sıxlaşdırırlar.
Vtoonify-ı digər ən müasir modellərlə müqayisə etmək
Ağartmaq
O, StyleGAN istifadə edərək düzlənmiş üzlərdə kolleksiya əsaslı üslub ötürmə üçün əsas kimi xidmət edir. Stil kodlarını əldə etmək üçün tədqiqatçılar üzləri düzləşdirməli və PSP üçün 256256 fotoşəkili kəsməlidirlər. Toonify 1024*1024 üslub kodları ilə stilizə edilmiş nəticə yaratmaq üçün istifadə olunur.
Nəhayət, onlar videodakı nəticəni orijinal yerinə yenidən uyğunlaşdırırlar. Stilsiz sahə qara rəngə təyin edilib.
DualStyleGAN
Bu, StyleGAN-a əsaslanan nümunəvi üslub transferi üçün əsasdır. Onlar Toonify ilə eyni məlumatların əvvəlcədən və sonrakı emal üsullarından istifadə edirlər.
Pix2pixHD
Bu, yüksək keyfiyyətli redaktə üçün əvvəlcədən öyrədilmiş modelləri sıxlaşdırmaq üçün adətən istifadə olunan təsvirdən-şəklə tərcümə modelidir. Cütlənmiş məlumatlardan istifadə etməklə öyrədilir.
Tədqiqatçılar pix2pixHD-ni əlavə nümunə xəritə daxiletmələri kimi istifadə edirlər, çünki o, çıxarılmış təhlil xəritəsindən istifadə edir.
Birinci Sifariş Hərəkəti
FOM tipik bir şəkil animasiya modelidir. O, 256256 şəkil üzərində öyrədilib və digər şəkil ölçüləri ilə zəif işləyir. Nəticə olaraq, tədqiqatçılar əvvəlcə FOM-un animasiyası üçün video çərçivələri 256*256-a qədər miqyaslandırır və sonra nəticələri orijinal ölçüsünə dəyişdirirlər.
Ədalətli müqayisə üçün, FOM öz yanaşmasının ilk stilizə edilmiş çərçivəsini istinad stili şəkli kimi istifadə edir.
DaGAN
Bu 3D üz animasiya modelidir. Onlar FOM ilə eyni məlumatların hazırlanması və sonrakı emal üsullarından istifadə edirlər.
Üstünlüklər
- İncəsənətdə, sosial media avatarlarında, filmlərdə, əyləncə reklamlarında və sairdə istifadə edilə bilər.
- Vtoonify metaversedə də istifadə edilə bilər.
Məhdudiyyətlər
- Bu metodologiya həm məlumatları, həm də modeli StyleGAN-a əsaslanan magistral sistemlərdən çıxarır, nəticədə verilənlər və model qərəzliyi yaranır.
- Artefaktlar əsasən stilizə edilmiş üz bölgəsi ilə digər hissələr arasında ölçü fərqləri ilə əlaqədardır.
- Bu strategiya üz bölgəsindəki işlərlə məşğul olduqda daha az uğurlu olur.
Nəticə
Nəhayət, VToonify üslubla idarə olunan yüksək keyfiyyətli video toonfikasiyası üçün çərçivədir.
Bu çərçivə videoların idarə edilməsində böyük performansa nail olur və StyleGAN əsaslı görüntü toonizasiya modellərini həm öz xüsusiyyətləri baxımından sıxlaşdırmaqla, həm də struktur üsluba, rəng tərzinə və üslub dərəcəsinə geniş nəzarət etməyə imkan verir. sintetik məlumatlar və şəbəkə strukturları.
Cavab yaz