Vtoonify: Kontrol Edilebilir Yüksek Çözünürlüklü Portre Video Stili Aktarımı

İçindekiler[Saklamak][Göstermek]

Vtoonify nedir?
Nasıl Çalışır?
StyleGAN ve Önerilen Vtoonify'ın Sınırlamaları
Vtoonify'ı diğer son teknoloji modellerle karşılaştırma+-
Avantajlar+-
- Sınırlamalar
Sonuç

En yüksek kalibrede yaratıcı portre filmleri üretmek, bilgisayarlı görü ve grafiklerde çok önemli ve arzu edilen bir görevdir.

Güçlü StyleGAN'a dayalı portre görüntü tonifikasyonu için birkaç etkili model önerilmiş olsa da, bu görüntü odaklı tekniklerin videolarla kullanıldığında sabit çerçeve boyutu, yüz hizalama gereksinimi, yüzle ilgili olmayan ayrıntıların olmaması gibi açık dezavantajları vardır. ve zamansal tutarsızlık.

Zorlu kontrollü yüksek çözünürlüklü portre video stili aktarımının üstesinden gelmek için devrim niteliğinde bir VToonify çerçevesi kullanılır.

Bu makalede VToonify ile ilgili en son çalışmayı, işlevselliği, dezavantajları ve diğer faktörleri de dahil ederek inceleyeceğiz.

Vtoonify nedir?

VToonify çerçevesi, özelleştirilebilir yüksek çözünürlüklü portre video stili iletimine izin verir.

VToonify, çerçeve ayrıntılarını korumak için bir kodlayıcı tarafından alınan çok ölçekli içerik özelliklerine dayalı yüksek kaliteli sanatsal portreler oluşturmak için StyleGAN'ın orta ve yüksek çözünürlüklü katmanlarını kullanır.

Ortaya çıkan tamamen evrişimli mimari, değişken boyutlu filmlerde hizalanmamış yüzleri girdi olarak alır ve çıktıda gerçekçi hareketlere sahip tüm yüz bölgeleriyle sonuçlanır.

Vtoonify

Bu çerçeve, mevcut StyleGAN tabanlı görüntü toonifikasyon modelleriyle uyumludur ve video toonifikasyonuna genişletilmelerine olanak tanır ve ayarlanabilir renk ve yoğunluk özelleştirmesi gibi çekici özellikleri devralır.

Bu ders çalışma sırasıyla koleksiyon tabanlı ve örnek tabanlı portre video stili aktarımı için Toonify ve DualStyleGAN tabanlı iki VToonify örneğini sunar.

Kapsamlı deneysel bulgular, önerilen VToonify çerçevesinin, değişken stil parametreleriyle yüksek kaliteli, geçici olarak tutarlı sanatsal portre filmleri yapımında mevcut yaklaşımlardan daha iyi performans gösterdiğini göstermektedir.

Araştırmacıların sağladığı Google Colab not defteri, böylece ellerini kirletebilirsin.

Nasıl Çalışır?

Ayarlanabilir yüksek çözünürlüklü portre video stili aktarımı gerçekleştirmek için VToonify, görüntü dönüştürme çerçevesinin avantajlarını StyleGAN tabanlı çerçeveyle birleştirir.

Vtoonify Çalışması

Değişen girdi boyutlarını barındırmak için görüntü çeviri sistemi tamamen evrişimli ağlar kullanır. Sıfırdan eğitim ise yüksek çözünürlüklü ve kontrollü stil aktarımını imkansız hale getirir.

Önceden eğitilmiş StyleGAN modeli, sabit resim boyutu ve detay kayıpları ile sınırlı olmasına rağmen, yüksek çözünürlüklü ve kontrollü stil aktarımı için StyleGAN tabanlı çerçevede kullanılır.

StyleGAN, sabit boyutlu giriş özelliğini ve düşük çözünürlüklü katmanlarını silerek hibrit çerçevede değiştirilir, bu da görüntü çeviri çerçevesine benzer tamamen evrişimli bir kodlayıcı-üretici mimarisi ile sonuçlanır.

Çerçeve ayrıntılarını korumak için, oluşturucu için ek bir içerik gereksinimi olarak giriş çerçevesinin çok ölçekli içerik özelliklerini çıkarmak için bir kodlayıcıyı eğitin. Vtoonify, StyleGAN modelinin stil kontrol esnekliğini, hem verilerini hem de modelini damıtmak için jeneratöre koyarak devralır.

StyleGAN ve Önerilen Vtoonify'ın Sınırlamaları

Sanatsal portreler, günlük hayatımızda olduğu kadar sanat gibi yaratıcı işlerde de yaygındır. sosyal medya avatarlar, filmler, eğlence reklamları vb.

Gelişimi ile derin öğrenme teknolojisi sayesinde, otomatik portre stili aktarımını kullanarak gerçek hayattaki yüz fotoğraflarından yüksek kaliteli sanatsal portreler oluşturmak artık mümkün.

Görüntü tabanlı stil aktarımı için oluşturulmuş ve birçoğu yeni başlayanlar için mobil uygulamalar şeklinde kolayca erişilebilen çeşitli başarılı yollar vardır. Video materyali, son birkaç yılda hızla sosyal medya beslemelerimizin temel dayanağı haline geldi.

Sosyal medyanın ve kısa ömürlü filmlerin yükselişi, başarılı ve ilginç videolar oluşturmak için portre video stili aktarımı gibi yenilikçi video düzenleme talebini artırdı.

Mevcut görüntü odaklı teknikler, filmlere uygulandığında, otomatik portre video stilizasyonunda kullanışlılıklarını sınırlayarak önemli dezavantajlara sahiptir.

StyleGAN, ayarlanabilir stil yönetimi ile yüksek kaliteli yüzler yaratma kapasitesinden dolayı bir portre resim stili transfer modeli geliştirmek için ortak bir omurgadır.

StyleGAN tabanlı bir sistem (resim toonifikasyonu olarak da bilinir) gerçek bir yüzü StyleGAN gizli alanına kodlar ve ardından ortaya çıkan stil kodunu, stilize edilmiş bir sürüm oluşturmak için sanatsal portre veri kümesinde ince ayarlı başka bir StyleGAN'a uygular.

StyleGAN, gerçek dünya çekimlerinde dinamik yüzleri desteklemeyen, hizalanmış yüzlere sahip ve sabit bir boyutta resimler oluşturur. Videoda yüz kırpma ve hizalama bazen kısmi bir yüz ve garip hareketlerle sonuçlanır. Araştırmacılar bu sorunu StyleGAN'ın 'sabit ürün kısıtlaması' olarak adlandırıyor.

Hizalanmamış yüzler için StyleGAN3 önerilmiştir; ancak, yalnızca belirli bir resim boyutunu destekler.

Ayrıca, yakın tarihli bir çalışma, hizalanmamış yüzleri kodlamanın hizalı yüzlerden daha zor olduğunu keşfetti. Yanlış yüz kodlaması, portre stili aktarımı için zararlıdır ve yeniden oluşturulmuş ve biçimlendirilmiş çerçevelerde kimlik değişikliği ve eksik bileşenler gibi sorunlara neden olur.

Tartışıldığı gibi, portre video stili aktarımı için etkili bir teknik aşağıdaki sorunları ele almalıdır:

Gerçekçi hareketleri korumak için, yaklaşımın hizalanmamış yüzlerle ve çeşitli video boyutlarıyla başa çıkabilmesi gerekir. Büyük bir video boyutu veya geniş bir görüş açısı, yüzün çerçevenin dışına çıkmasını engellerken daha fazla bilgi yakalayabilir.
Günümüzün yaygın olarak kullanılan HD cihazlarıyla rekabet edebilmek için yüksek çözünürlüklü video gereklidir.
Gerçekçi bir kullanıcı etkileşim sistemi geliştirirken, kullanıcıların seçimlerini değiştirmeleri ve seçmeleri için esnek stil kontrolü sunulmalıdır.

Bu amaçla araştırmacılar, video toonifikasyonu için yeni bir hibrit çerçeve olan VToonify'ı önermektedir. Sabit mahsul kısıtlamasının üstesinden gelmek için, araştırmacılar önce StyleGAN'da çeviri denkliği üzerinde çalışıyorlar.

VToonify, ayarlanabilir yüksek çözünürlüklü portre video stili aktarımı elde etmek için StyleGAN tabanlı mimarinin faydalarını ve görüntü çeviri çerçevesini birleştirir.

Aşağıdakiler başlıca katkılardır:

Araştırmacılar, StyleGAN'ın sabit mahsul kısıtlamasını araştırıyor ve çeviri denkliğine dayalı bir çözüm öneriyor.
Araştırmacılar, hizalanmamış yüzleri ve farklı video boyutlarını destekleyen kontrollü yüksek çözünürlüklü portre video stili aktarımı için benzersiz, tamamen evrişimli bir VToonify çerçevesi sunuyor.
Araştırmacılar, Toonify ve DualStyleGAN'ın omurgaları üzerinde VToonify'ı inşa ediyor ve koleksiyon tabanlı ve örnek tabanlı portre video stili aktarımını sağlamak için omurgaları hem veri hem de model açısından yoğunlaştırıyor.

Vtoonify'ı diğer son teknoloji modellerle karşılaştırma

Çizgi film haline getirme

StyleGAN kullanarak hizalanmış yüzlerde koleksiyon tabanlı stil aktarımı için temel görevi görür. Stil kodlarını almak için araştırmacıların yüzleri hizalamaları ve PSP için 256256 fotoğrafı kırpmaları gerekiyor. Toonify, 1024*1024 stil kodlarıyla stilize edilmiş bir sonuç üretmek için kullanılır.

Son olarak, videodaki sonucu orijinal konumuna yeniden hizalarlar. Stilize edilmemiş alan siyah olarak ayarlanmıştır.

Vtoonify'ı Diğer Modern Modellerle Karşılaştırma

Çift StilGAN

StyleGAN'a dayalı örnek tabanlı stil aktarımı için bir omurgadır. Toonify ile aynı veri ön ve son işleme tekniklerini kullanırlar.

Pix2pixHD

Yüksek çözünürlüklü düzenleme için önceden eğitilmiş modelleri yoğunlaştırmak için yaygın olarak kullanılan bir görüntüden görüntüye çeviri modelidir. Eşleştirilmiş veriler kullanılarak eğitilir.

Araştırmacılar, ayıklanmış ayrıştırma haritasını kullandığından ek örnek harita girdileri olarak pix2pixHD'yi kullanır.

Birinci Derece Hareket

FOM, tipik bir görüntü animasyon modelidir. 256256 resim üzerinde eğitildi ve diğer resim boyutlarıyla kötü performans gösteriyor. Sonuç olarak, araştırmacılar FOM'un animasyon yapması için önce video karelerini 256*256'ya ölçeklendirir ve ardından sonuçları orijinal boyutlarına yeniden boyutlandırır.

Adil bir karşılaştırma için FOM, referans stili görüntüsü olarak yaklaşımının ilk stilize çerçevesini kullanır.

Dagan

3D yüz animasyon modelidir. FOM ile aynı veri hazırlama ve son işleme yöntemlerini kullanırlar.

dostluk

Avantajlar

Sanatta, sosyal medya avatarlarında, filmlerde, eğlence reklamlarında ve benzerlerinde kullanılabilir.
Vtoonify, meta veri deposunda da kullanılabilir.

Sınırlamalar

Bu metodoloji, StyleGAN tabanlı omurgalardan hem verileri hem de modeli çıkararak veri ve model yanlılığı ile sonuçlanır.
Artefaktlar daha çok stilize edilmiş yüz bölgesi ile diğer bölümler arasındaki boyut farklılıklarından kaynaklanmaktadır.
Bu strateji, yüz bölgesindeki şeylerle uğraşırken daha az başarılıdır.

Sonuç

Son olarak, VToonify, stil kontrollü yüksek çözünürlüklü video tonifikasyonu için bir çerçevedir.

Bu çerçeve, videoları işlemede harika bir performans elde eder ve StyleGAN tabanlı görüntü toonifikasyon modellerini hem kendi hem de kendi açısından yoğunlaştırarak yapısal stil, renk stili ve stil derecesi üzerinde geniş kontrol sağlar. sentetik veri ve ağ yapıları.

Vtoonify: Kontrol Edilebilir Yüksek Çözünürlüklü Portre Video Tarzı Aktarımı

Vtoonify nedir?

Nasıl Çalışır?

StyleGAN ve Önerilen Vtoonify'ın Sınırlamaları