Vtoonify: नियंत्रित करने योग्य उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो शैली स्थानांतरण

विषय - सूची[छिपाना][प्रदर्शन]

Vtoonify क्या है?
यह कैसे काम करता है?
StyleGAN की सीमाएं और प्रस्तावित Vtoonify
अन्य अत्याधुनिक मॉडलों के साथ Vtoonify की तुलना+-
फायदे+-
- सीमाओं
निष्कर्ष

उच्चतम क्षमता की रचनात्मक चित्र फिल्मों का निर्माण करने के लिए कंप्यूटर दृष्टि और ग्राफिक्स में यह एक महत्वपूर्ण और वांछनीय कार्य है।

हालांकि शक्तिशाली StyleGAN पर आधारित पोर्ट्रेट इमेज टोनिफिकेशन के लिए कई प्रभावी मॉडल प्रस्तावित किए गए हैं, वीडियो के साथ उपयोग किए जाने पर इन छवि-उन्मुख तकनीकों में स्पष्ट कमियां हैं, जैसे कि निश्चित फ्रेम आकार, चेहरे के संरेखण की आवश्यकता, गैर-चेहरे के विवरण की अनुपस्थिति , और अस्थायी असंगति।

एक क्रांतिकारी VToonify फ्रेमवर्क का उपयोग कठिन नियंत्रित उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसफर से निपटने के लिए किया जाता है।

हम इस लेख में VToonify पर सबसे हालिया अध्ययन की जांच करेंगे, जिसमें इसकी कार्यक्षमता, कमियां और अन्य कारक शामिल हैं।

Vtoonify क्या है?

VToonify फ्रेमवर्क अनुकूलन योग्य उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसमिशन की अनुमति देता है।

VToonify, फ़्रेम विवरण को बनाए रखने के लिए एन्कोडर द्वारा प्राप्त बहु-स्तरीय सामग्री विशेषताओं के आधार पर उच्च-गुणवत्ता वाले कलात्मक पोर्ट्रेट बनाने के लिए StyleGAN की मध्य और उच्च-रिज़ॉल्यूशन परतों का उपयोग करता है।

परिणामी पूरी तरह से दृढ़ वास्तुकला चर-आकार की फिल्मों में गैर-संरेखित चेहरों को इनपुट के रूप में लेती है, जिसके परिणामस्वरूप आउटपुट में यथार्थवादी आंदोलनों के साथ पूरे चेहरे वाले क्षेत्र होते हैं।

vtoonify

यह ढांचा वर्तमान StyleGAN- आधारित छवि टोनिफिकेशन मॉडल के साथ संगत है, जिससे उन्हें वीडियो टोनिफिकेशन तक बढ़ाया जा सकता है, और समायोज्य रंग और तीव्रता अनुकूलन जैसी आकर्षक विशेषताओं को विरासत में मिला है।

इस अध्ययन संग्रह-आधारित और अनुकरणीय-आधारित पोर्ट्रेट वीडियो शैली हस्तांतरण के लिए क्रमशः टूनिफाई और डुअल स्टाइलगैन पर आधारित वीटूनिफाई के दो इंस्टेंटेशन पेश करता है।

व्यापक प्रयोगात्मक निष्कर्ष बताते हैं कि प्रस्तावित VToonify फ्रेमवर्क चर शैली मापदंडों के साथ उच्च-गुणवत्ता, अस्थायी रूप से सुसंगत कलात्मक चित्र फिल्में बनाने में मौजूदा दृष्टिकोणों से बेहतर प्रदर्शन करता है।

शोधकर्ता प्रदान करते हैं गूगल कोलाब नोटबुक, ताकि आप उस पर अपने हाथ गंदे कर सकें।

यह कैसे काम करता है?

एडजस्टेबल हाई-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसफर को पूरा करने के लिए, VToonify इमेज ट्रांसलेशन फ्रेमवर्क के फायदों को StyleGAN-आधारित फ्रेमवर्क के साथ जोड़ता है।

Vtoonify कार्य

अलग-अलग इनपुट आकारों को समायोजित करने के लिए, छवि अनुवाद प्रणाली पूरी तरह से दृढ़ नेटवर्क को नियोजित करती है। दूसरी ओर, खरोंच से प्रशिक्षण, उच्च-रिज़ॉल्यूशन और नियंत्रित शैली के प्रसारण को असंभव बना देता है।

पूर्व-प्रशिक्षित StyleGAN मॉडल का उपयोग StyleGAN-आधारित ढांचे में उच्च-रिज़ॉल्यूशन और नियंत्रित शैली हस्तांतरण के लिए किया जाता है, हालांकि यह निश्चित चित्र आकार और विवरण हानियों तक सीमित है।

StyleGAN को इसके निश्चित आकार के इनपुट फीचर और कम-रिज़ॉल्यूशन लेयर्स को हटाकर हाइब्रिड फ्रेमवर्क में संशोधित किया गया है, जिसके परिणामस्वरूप इमेज ट्रांसलेशन फ्रेमवर्क के समान पूरी तरह से कन्वेन्शनल एनकोडर-जनरेटर आर्किटेक्चर है।

फ़्रेम विवरण बनाए रखने के लिए, जनरेटर के लिए अतिरिक्त सामग्री आवश्यकता के रूप में इनपुट फ़्रेम की बहु-स्तरीय सामग्री विशेषताओं को निकालने के लिए एक एन्कोडर को प्रशिक्षित करें। Vtoonify को StyleGAN मॉडल के स्टाइल कंट्रोल लचीलेपन को अपने डेटा और मॉडल दोनों को डिस्टिल करने के लिए जनरेटर में डालकर विरासत में मिला है।

StyleGAN की सीमाएं और प्रस्तावित Vtoonify

कलात्मक चित्र हमारे दैनिक जीवन के साथ-साथ कला जैसे रचनात्मक व्यवसायों में भी आम हैं। सोशल मीडिया अवतार, फिल्में, मनोरंजन विज्ञापन, और इसी तरह।

के विकास के साथ ध्यान लगा के पढ़ना या सीखना प्रौद्योगिकी, अब स्वचालित पोर्ट्रेट शैली हस्तांतरण का उपयोग करके वास्तविक जीवन के चेहरे की तस्वीरों से उच्च गुणवत्ता वाले कलात्मक चित्र बनाना संभव है।

छवि-आधारित शैली हस्तांतरण के लिए कई प्रकार के सफल तरीके बनाए गए हैं, जिनमें से कई मोबाइल एप्लिकेशन के रूप में शुरुआती उपयोगकर्ताओं के लिए आसानी से उपलब्ध हैं। पिछले कई वर्षों में वीडियो सामग्री तेजी से हमारे सोशल मीडिया फीड का मुख्य आधार बन गई है।

सोशल मीडिया और अल्पकालिक फिल्मों के उदय ने सफल और दिलचस्प वीडियो बनाने के लिए अभिनव वीडियो संपादन, जैसे पोर्ट्रेट वीडियो स्टाइल ट्रांसफर की मांग में वृद्धि की है।

फिल्मों पर लागू होने पर मौजूदा छवि-उन्मुख तकनीकों के महत्वपूर्ण नुकसान हैं, स्वचालित पोर्ट्रेट वीडियो शैलीकरण में उनकी उपयोगिता को सीमित करते हुए।

StyleGAN एडजस्टेबल स्टाइल मैनेजमेंट के साथ उच्च गुणवत्ता वाले चेहरे बनाने की क्षमता के कारण पोर्ट्रेट पिक्चर स्टाइल ट्रांसफर मॉडल विकसित करने के लिए एक सामान्य रीढ़ है।

StyleGAN- आधारित सिस्टम (जिसे पिक्चर टोनिफिकेशन के रूप में भी जाना जाता है) एक वास्तविक चेहरे को StyleGAN गुप्त स्थान में एन्कोड करता है और फिर एक स्टाइल संस्करण बनाने के लिए कलात्मक पोर्ट्रेट डेटासेट पर परिणामी स्टाइल कोड को दूसरे StyleGAN पर लागू करता है।

StyleGAN संरेखित चेहरों के साथ और एक निश्चित आकार में चित्र बनाता है, जो वास्तविक दुनिया के फ़ुटेज में गतिशील चेहरों का समर्थन नहीं करता है। वीडियो में फेस क्रॉपिंग और अलाइनमेंट के परिणामस्वरूप कभी-कभी आंशिक चेहरा और अजीब हावभाव हो जाते हैं। शोधकर्ता इस मुद्दे को StyleGAN का 'निश्चित फसल प्रतिबंध' कहते हैं।

असंरेखित चेहरों के लिए, StyleGAN3 प्रस्तावित किया गया है; हालाँकि, यह केवल एक सेट चित्र आकार का समर्थन करता है।

इसके अलावा, हाल के एक अध्ययन से पता चला है कि संरेखित चेहरों की तुलना में असंरेखित चेहरों को कूटबद्ध करना अधिक चुनौतीपूर्ण है। गलत चेहरा एन्कोडिंग पोर्ट्रेट शैली स्थानांतरण के लिए हानिकारक है, जिसके परिणामस्वरूप पहचान में परिवर्तन और पुनर्निर्मित और स्टाइल वाले फ़्रेम में घटकों के गायब होने जैसी समस्याएं होती हैं।

जैसा कि चर्चा की गई है, पोर्ट्रेट वीडियो शैली हस्तांतरण के लिए एक कुशल तकनीक को निम्नलिखित मुद्दों को संभालना चाहिए:

यथार्थवादी आंदोलनों को संरक्षित करने के लिए, दृष्टिकोण को असंरेखित चेहरों और विविध वीडियो आकारों से निपटने में सक्षम होना चाहिए। एक बड़ा वीडियो आकार, या देखने का एक विस्तृत कोण, चेहरे को फ्रेम से बाहर जाने से रोकते हुए अधिक जानकारी प्राप्त कर सकता है।
आज के आमतौर पर इस्तेमाल होने वाले एचडी गैजेट्स से मुकाबला करने के लिए हाई-रेजोल्यूशन वीडियो जरूरी है।
यथार्थवादी उपयोगकर्ता इंटरैक्शन सिस्टम विकसित करते समय उपयोगकर्ताओं को अपनी पसंद बदलने और चुनने के लिए लचीले शैली नियंत्रण की पेशकश की जानी चाहिए।

उस उद्देश्य के लिए, शोधकर्ताओं ने वीटूनिफाई का सुझाव दिया है, जो वीडियो टोनिफिकेशन के लिए एक नया हाइब्रिड ढांचा है। निश्चित फसल की कमी को दूर करने के लिए, शोधकर्ता पहले StyleGAN में अनुवाद तुल्यता का अध्ययन करते हैं।

एडजस्टेबल हाई-रिज़ॉल्यूशन पोर्ट्रेट वीडियो स्टाइल ट्रांसफर को प्राप्त करने के लिए VToonify StyleGAN- आधारित आर्किटेक्चर और इमेज ट्रांसलेशन फ्रेमवर्क के लाभों को जोड़ती है।

निम्नलिखित प्रमुख योगदान हैं:

शोधकर्ता StyleGAN की निश्चित-फसल बाधाओं की जांच करते हैं और अनुवाद तुल्यता के आधार पर एक समाधान का प्रस्ताव करते हैं।
शोधकर्ताओं ने नियंत्रित उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो शैली हस्तांतरण के लिए एक अद्वितीय पूरी तरह से दृढ़ VToonify ढांचा प्रस्तुत किया है जो कि असंरेखित चेहरों और विभिन्न वीडियो आकारों का समर्थन करता है।
शोधकर्ता Toonify और DualStyleGAN की रीढ़ की हड्डी पर VToonify का निर्माण करते हैं और संग्रह-आधारित और उदाहरण-आधारित पोर्ट्रेट वीडियो शैली हस्तांतरण को सक्षम करने के लिए डेटा और मॉडल दोनों के संदर्भ में रीढ़ की हड्डी को संघनित करते हैं।

अन्य अत्याधुनिक मॉडलों के साथ Vtoonify की तुलना

Toonify

यह StyleGAN का उपयोग करके संरेखित चेहरों पर संग्रह-आधारित शैली हस्तांतरण की नींव के रूप में कार्य करता है। स्टाइल कोड प्राप्त करने के लिए, शोधकर्ताओं को चेहरे को संरेखित करना होगा और PSP के लिए 256256 फ़ोटो क्रॉप करना होगा। Toonify का उपयोग 1024*1024 स्टाइल कोड के साथ एक शैलीबद्ध परिणाम उत्पन्न करने के लिए किया जाता है।

अंत में, वे वीडियो में परिणाम को उसके मूल स्थान पर फिर से संरेखित करते हैं। शैलीरहित क्षेत्र को काला कर दिया गया है।

कला मॉडल के अन्य राज्य के साथ Vtoonify की तुलना

डुअल स्टाइलगैन

यह StyleGAN पर आधारित उदाहरण-आधारित शैली हस्तांतरण के लिए एक रीढ़ है। वे Toonify के समान डेटा प्री- और पोस्ट-प्रोसेसिंग तकनीकों का उपयोग करते हैं।

पिक्स2पिक्सएचडी

यह एक छवि-से-छवि अनुवाद मॉडल है जो आमतौर पर उच्च-रिज़ॉल्यूशन संपादन के लिए पूर्व-प्रशिक्षित मॉडल को संघनित करने के लिए उपयोग किया जाता है। इसे युग्मित डेटा का उपयोग करके प्रशिक्षित किया जाता है।

शोधकर्ता इसके अतिरिक्त उदाहरण मानचित्र इनपुट के रूप में pix2pixHD का उपयोग करते हैं क्योंकि यह निकाले गए पार्सिंग मानचित्र का उपयोग करता है।

पहला आदेश प्रस्ताव

FOM एक विशिष्ट छवि एनीमेशन मॉडल है। इसे 256256 चित्रों पर प्रशिक्षित किया गया था और अन्य छवि आकारों के साथ खराब प्रदर्शन करता है। नतीजतन, शोधकर्ता पहले एफओएम से एनीमेशन के लिए वीडियो फ्रेम को 256 * 256 तक स्केल करते हैं और फिर परिणामों को उनके मूल आकार में बदलते हैं।

निष्पक्ष तुलना के लिए, FOM अपने दृष्टिकोण के पहले शैलीबद्ध फ्रेम को अपनी संदर्भ शैली छवि के रूप में नियोजित करता है।

दागन

यह एक 3डी फेस एनिमेशन मॉडल है। वे FOM के समान डेटा तैयार करने और पोस्टप्रोसेसिंग विधियों का उपयोग करते हैं।

कॉमरिज़न

फायदे

इसे कला, सोशल मीडिया अवतार, फिल्मों, मनोरंजन विज्ञापन आदि में नियोजित किया जा सकता है।
Vtoonify का उपयोग मेटावर्स में भी किया जा सकता है।

सीमाओं

यह पद्धति StyleGAN- आधारित बैकबोन से डेटा और मॉडल दोनों को निकालती है, जिसके परिणामस्वरूप डेटा और मॉडल पूर्वाग्रह होते हैं।
कलाकृतियां ज्यादातर शैलीबद्ध चेहरे क्षेत्र और अन्य वर्गों के बीच आकार के अंतर के कारण होती हैं।
चेहरे के क्षेत्र में चीजों से निपटने पर यह रणनीति कम सफल होती है।

निष्कर्ष

अंत में, VToonify शैली-नियंत्रित उच्च-रिज़ॉल्यूशन वीडियो टूलीफिकेशन के लिए एक ढांचा है।

यह ढांचा वीडियो को संभालने में शानदार प्रदर्शन प्राप्त करता है और स्टाइलगैन-आधारित छवि टोनिफिकेशन मॉडल को उनके दोनों के संदर्भ में संघनित करके संरचनात्मक शैली, रंग शैली और शैली की डिग्री पर व्यापक नियंत्रण को सक्षम बनाता है। सिंथेटिक डेटा और नेटवर्क संरचनाएं।

Vtoonify: नियंत्रित करने योग्य उच्च-रिज़ॉल्यूशन पोर्ट्रेट वीडियो शैली स्थानांतरण

Vtoonify क्या है?

यह कैसे काम करता है?

StyleGAN की सीमाएं और प्रस्तावित Vtoonify