कम्प्यूटर भिजन र ग्राफिक्समा उच्चतम क्षमताको रचनात्मक पोर्ट्रेट फिल्महरू उत्पादन गर्न यो महत्त्वपूर्ण र वांछनीय कार्य हो।
यद्यपि शक्तिशाली स्टाइलगानमा आधारित पोर्ट्रेट छवि टुनिफिकेशनका लागि धेरै प्रभावकारी मोडेलहरू प्रस्ताव गरिएको छ, यी छवि-उन्मुख प्रविधिहरू भिडियोहरूमा प्रयोग गर्दा स्पष्ट कमजोरीहरू छन्, जस्तै निश्चित फ्रेम आकार, अनुहार पङ्क्तिबद्धताको लागि आवश्यकता, अनुहारको विवरणहरूको अनुपस्थिति। , र अस्थायी असंगति।
एक क्रान्तिकारी VToonify फ्रेमवर्क कठिन नियन्त्रित उच्च-रिजोल्युशन पोर्ट्रेट भिडियो शैली स्थानान्तरण गर्न प्रयोग गरिन्छ।
हामी यस लेखमा VToonify मा सबैभन्दा भर्खरको अध्ययन, यसको कार्यक्षमता, कमजोरीहरू र अन्य कारकहरू सहित जाँच गर्नेछौं।
Vtoonify के हो?
VToonify फ्रेमवर्कले अनुकूलन योग्य उच्च-रिजोल्युसन पोर्ट्रेट भिडियो शैली प्रसारणको लागि अनुमति दिन्छ।
VToonify ले फ्रेम विवरणहरू राख्नको लागि एन्कोडरद्वारा पुनःप्राप्त गरिएको बहु-स्तरीय सामग्री विशेषताहरूमा आधारित उच्च-गुणस्तरको कलात्मक चित्रहरू सिर्जना गर्न StyleGAN को मध्य र उच्च-रिजोल्युसन तहहरू प्रयोग गर्दछ।
परिणामस्वरूप पूर्ण रूपले कन्भोलुसनल आर्किटेक्चरले चर आकारका चलचित्रहरूमा गैर-पङ्क्तिबद्ध अनुहारहरूलाई इनपुटको रूपमा लिन्छ, परिणामस्वरूप सम्पूर्ण-अनुहार क्षेत्रहरू आउटपुटमा यथार्थवादी आन्दोलनहरू हुन्छन्।
यो फ्रेमवर्क हालको StyleGAN-आधारित छवि टूनिफिकेशन मोडेलहरूसँग उपयुक्त छ, तिनीहरूलाई भिडियो टुनिफिकेशनमा विस्तार गर्न अनुमति दिँदै, र समायोज्य रङ र तीव्रता अनुकूलन जस्ता आकर्षक विशेषताहरू प्राप्त गर्दछ।
यो अध्ययन सङ्कलन-आधारित र उदाहरण-आधारित पोर्ट्रेट भिडियो शैली स्थानान्तरणको लागि Toonify र DualStyleGAN मा आधारित VToonify को दुई इन्स्ट्यान्टेशनहरू क्रमशः प्रस्तुत गर्दछ।
विस्तृत प्रयोगात्मक निष्कर्षहरूले देखाउँदछ कि प्रस्तावित VToonify फ्रेमवर्कले चल शैली प्यारामिटरहरूको साथ उच्च-गुणस्तर, अस्थायी-सुसंगत कलात्मक पोर्ट्रेट चलचित्रहरू बनाउनको लागि अवस्थित दृष्टिकोणहरू भन्दा राम्रो प्रदर्शन गर्दछ।
अनुसन्धानकर्ताहरूले प्रदान गर्छन् Google Colab नोटबुक, त्यसैले तपाईं यसमा आफ्नो हात फोहोर प्राप्त गर्न सक्नुहुन्छ।
यस्ले कसरी काम गर्छ?
समायोज्य उच्च-रिजोल्युसन पोर्ट्रेट भिडियो शैली स्थानान्तरण पूरा गर्न, VToonify ले छवि अनुवाद फ्रेमवर्कका फाइदाहरूलाई StyleGAN-आधारित फ्रेमवर्कसँग जोड्दछ।
फरक-फरक इनपुट साइजहरू समायोजन गर्न, छवि अनुवाद प्रणालीले पूर्ण रूपमा कन्भोलुसनल नेटवर्कहरू प्रयोग गर्दछ। स्क्र्याचबाट प्रशिक्षण, अर्कोतर्फ, उच्च-रिजोल्युसन र नियन्त्रित शैली प्रसारण असम्भव बनाउँछ।
पूर्व-प्रशिक्षित StyleGAN मोडेल उच्च-रिजोल्युसन र नियन्त्रित शैली स्थानान्तरणको लागि StyleGAN-आधारित फ्रेमवर्कमा प्रयोग गरिन्छ, यद्यपि यो निश्चित तस्विर आकार र विवरण हानिहरूमा सीमित छ।
StyleGAN लाई हाइब्रिड ढाँचामा यसको निश्चित आकारको इनपुट सुविधा र कम-रिजोल्युसन तहहरू मेटाएर परिमार्जन गरिएको छ, जसको परिणामस्वरूप छवि अनुवाद ढाँचाको जस्तै पूर्ण रूपले कन्भोलुसनल एन्कोडर-जेनरेटर वास्तुकला हुन्छ।
फ्रेम विवरणहरू कायम राख्न, जेनेरेटरलाई अतिरिक्त सामग्री आवश्यकताको रूपमा इनपुट फ्रेमको बहु-स्केल सामग्री विशेषताहरू निकाल्नको लागि एक इन्कोडरलाई तालिम दिनुहोस्। Vtoonify ले यसको डेटा र मोडेल दुवै डिस्टिल गर्न जेनरेटरमा राखेर StyleGAN मोडेलको शैली नियन्त्रण लचिलोपन प्राप्त गर्दछ।
StyleGAN र प्रस्तावित Vtoonify को सीमितताहरू
कलात्मक चित्रहरू हाम्रो दैनिक जीवनका साथै कला जस्ता रचनात्मक व्यवसायहरूमा सामान्य छन्। सामाजिक संजाल अवतार, चलचित्र, मनोरन्जन विज्ञापन, र यति।
को विकास संग गहिरो शिक्षा टेक्नोलोजी, अब स्वचालित पोर्ट्रेट शैली स्थानान्तरण प्रयोग गरेर वास्तविक जीवनको अनुहार फोटोहरूबाट उच्च-गुणस्तरको कलात्मक चित्रहरू सिर्जना गर्न सम्भव छ।
त्यहाँ छवि-आधारित शैली स्थानान्तरणको लागि सिर्जना गरिएका विभिन्न सफल तरिकाहरू छन्, जसमध्ये धेरै मोबाइल अनुप्रयोगहरूको रूपमा शुरुवात प्रयोगकर्ताहरूलाई सजिलै पहुँचयोग्य छन्। पछिल्लो धेरै वर्षहरूमा भिडियो सामग्री द्रुत रूपमा हाम्रो सोशल मिडिया फिडहरूको मुख्य आधार बनेको छ।
सामाजिक सञ्जाल र अल्पकालिक चलचित्रहरूको उदयले सफल र रोचक भिडियोहरू उत्पन्न गर्न अभिनव भिडियो सम्पादन, जस्तै पोर्ट्रेट भिडियो शैली स्थानान्तरणको माग बढेको छ।
स्वचालित पोर्ट्रेट भिडियो शैलीकरणमा तिनीहरूको उपयोगिता सीमित गर्दै, चलचित्रहरूमा लागू गर्दा अवस्थित छवि-उन्मुख प्रविधिहरूमा महत्त्वपूर्ण बेफाइदाहरू छन्।
समायोज्य शैली व्यवस्थापनको साथ उच्च-गुणस्तरको अनुहारहरू सिर्जना गर्ने क्षमताको कारणले स्टाइलग्यान पोर्ट्रेट चित्र शैली स्थानान्तरण मोडेलको विकासको लागि एक सामान्य ब्याकबोन हो।
एक StyleGAN-आधारित प्रणाली (पिक्चर टुनिफिकेशनको रूपमा पनि चिनिन्छ) ले वास्तविक अनुहारलाई StyleGAN लेटेन्ट स्पेसमा एन्कोड गर्दछ र त्यसपछि शैलीकृत संस्करण सिर्जना गर्न कलात्मक पोर्ट्रेट डेटासेटमा अर्को StyleGAN फाइन-ट्यून गरिएको शैली कोड लागू गर्दछ।
StyleGAN ले पङ्क्तिबद्ध अनुहारहरू र निश्चित साइजमा चित्रहरू सिर्जना गर्दछ, जसले वास्तविक-विश्व फुटेजमा गतिशील अनुहारहरूलाई समर्थन गर्दैन। भिडियोमा अनुहार काट्ने र पङ्क्तिबद्धताले कहिलेकाहीं आंशिक अनुहार र अप्ठ्यारो इशाराहरूको परिणाम दिन्छ। अनुसन्धानकर्ताहरूले यस मुद्दालाई StyleGAN को 'फिक्स-क्रप प्रतिबन्ध' भनेका छन्।
असंरेखित अनुहारहरूको लागि, StyleGAN3 प्रस्ताव गरिएको छ; यद्यपि, यसले केवल एक सेट तस्वीर आकारलाई समर्थन गर्दछ।
यसबाहेक, भर्खरैको अध्ययनले पत्ता लगाएको छ कि असंरेखित अनुहारहरू सङ्केतन गर्ने पङ्क्तिबद्ध अनुहारहरू भन्दा बढी चुनौतीपूर्ण छ। गलत अनुहार एन्कोडिङ पोर्ट्रेट शैली स्थानान्तरणको लागि हानिकारक छ, जसको परिणामस्वरूप पहिचान परिवर्तन र पुनर्निर्माण र शैली फ्रेमहरूमा हराएको घटक जस्ता समस्याहरू हुन्छन्।
छलफल गरिए अनुसार, पोर्ट्रेट भिडियो शैली स्थानान्तरणको लागि एक कुशल प्रविधिले निम्न समस्याहरू ह्यान्डल गर्नुपर्छ:
- यथार्थवादी आन्दोलनहरू सुरक्षित गर्न, दृष्टिकोण असंरेखित अनुहारहरू र विभिन्न भिडियो आकारहरूसँग व्यवहार गर्न सक्षम हुनुपर्छ। ठुलो भिडियो साइज, वा दृश्यको फराकिलो कोणले अनुहारलाई फ्रेमबाट बाहिर जान नदिँदा थप जानकारी खिच्न सक्छ।
- आजको सामान्यतया प्रयोग हुने HD ग्याजेटहरूसँग प्रतिस्पर्धा गर्न, उच्च-रिजोल्युसन भिडियो आवश्यक छ।
- यथार्थपरक प्रयोगकर्ता अन्तरक्रिया प्रणाली विकास गर्दा प्रयोगकर्ताहरूलाई परिवर्तन गर्न र छनौट गर्न लचिलो शैली नियन्त्रण प्रस्ताव गरिनु पर्छ।
त्यस उद्देश्यका लागि, अन्वेषकहरूले VToonify सुझाव दिन्छन्, भिडियो टुनिफिकेशनको लागि एक उपन्यास हाइब्रिड फ्रेमवर्क। फिक्स्ड फसल बाधालाई पार गर्न, शोधकर्ताहरूले पहिलो स्टाइलगानमा अनुवाद समतुल्यता अध्ययन गर्छन्।
VToonify ले समायोज्य उच्च-रिजोल्युसन पोर्ट्रेट भिडियो शैली स्थानान्तरण प्राप्त गर्न StyleGAN-आधारित आर्किटेक्चर र छवि अनुवाद फ्रेमवर्कका फाइदाहरू संयोजन गर्दछ।
निम्न प्रमुख योगदानहरू छन्:
- अन्वेषकहरूले StyleGAN को फिक्स्ड-क्रप अवरोधको खोजी गर्छन् र अनुवाद समतुल्यतामा आधारित समाधान प्रस्ताव गर्छन्।
- अन्वेषकहरूले नियन्त्रित उच्च-रिजोल्युसन पोर्ट्रेट भिडियो शैली स्थानान्तरणको लागि एक अद्वितीय पूर्ण रूपले कन्भोलुसनल VToonify फ्रेमवर्क प्रस्तुत गर्छन् जसले असंरेखित अनुहारहरू र विभिन्न भिडियो आकारहरूलाई समर्थन गर्दछ।
- अन्वेषकहरूले Toonify र DualStyleGAN को ब्याकबोनहरूमा VToonify निर्माण गर्छन् र संग्रह-आधारित र उदाहरण-आधारित पोर्ट्रेट भिडियो शैली स्थानान्तरण सक्षम गर्न डेटा र मोडेल दुवैको सन्दर्भमा ब्याकबोनहरू गाढा गर्छन्।
Vtoonify को अन्य अत्याधुनिक मोडेलहरूसँग तुलना गर्दै
Toonify
यसले StyleGAN प्रयोग गरेर पङ्क्तिबद्ध अनुहारहरूमा संग्रह-आधारित शैली स्थानान्तरणको लागि आधारको रूपमा कार्य गर्दछ। शैली कोडहरू पुन: प्राप्त गर्न, अनुसन्धानकर्ताहरूले PSP का लागि अनुहारहरू पङ्क्तिबद्ध र 256256 तस्बिरहरू क्रप गर्नुपर्छ। Toonify 1024*1024 शैली कोडहरूको साथ शैलीकृत परिणाम उत्पन्न गर्न प्रयोग गरिन्छ।
अन्तमा, तिनीहरूले भिडियोमा परिणामलाई यसको मूल स्थानमा पुन: पङ्क्तिबद्ध गर्छन्। अन-शैली क्षेत्र कालोमा सेट गरिएको छ।
DualStyleGAN
यो StyleGAN मा आधारित उदाहरण-आधारित शैली स्थानान्तरणको लागि मेरुदण्ड हो। तिनीहरूले Toonify जस्तै डेटा पूर्व र पोस्ट-प्रशोधन प्रविधिहरू प्रयोग गर्छन्।
Pix2pixHD
यो छवि-देखि-छवि अनुवाद मोडेल हो जुन सामान्यतया उच्च-रिजोल्युसन सम्पादनको लागि पूर्व-प्रशिक्षित मोडेलहरूलाई कन्डेन्स गर्न प्रयोग गरिन्छ। यो जोडी डेटा प्रयोग गरी प्रशिक्षित गरिन्छ।
अन्वेषकहरूले pix2pixHD लाई यसको अतिरिक्त उदाहरण नक्सा इनपुटको रूपमा प्रयोग गर्दछ किनभने यसले एक्स्ट्र्याक्ट पार्सिङ नक्शा प्रयोग गर्दछ।
पहिलो अर्डर मोशन
FOM एक विशिष्ट छवि एनिमेसन मोडेल हो। यसलाई 256256 चित्रहरूमा तालिम दिइएको थियो र अन्य छवि आकारहरूसँग खराब प्रदर्शन गर्दछ। नतिजाको रूपमा, अन्वेषकहरूले FOM को लागि एनिमेसनको लागि पहिले भिडियो फ्रेमहरूलाई 256*256 मा मापन गर्छन् र त्यसपछि परिणामहरूलाई तिनीहरूको मूल आकारमा रिसाइज गर्छन्।
निष्पक्ष तुलनाको लागि, FOM ले यसको सन्दर्भ शैली छविको रूपमा आफ्नो दृष्टिकोणको पहिलो शैलीकृत फ्रेमलाई प्रयोग गर्दछ।
DaGAN
यो थ्रीडी फेस एनिमेसन मोडेल हो। तिनीहरूले FOM को रूपमा समान डेटा तयारी र पोस्टप्रोसेसिङ विधिहरू प्रयोग गर्छन्।
फाइदा
- यसलाई कला, सामाजिक सञ्जाल अवतार, चलचित्र, मनोरन्जन विज्ञापन, र यति अगाडि काम गर्न सकिन्छ।
- Vtoonify metaverse मा पनि प्रयोग गर्न सकिन्छ।
सीमितता
- यस पद्धतिले डेटा र मोडेल दुवै स्टाइलगान-आधारित ब्याकबोनहरूबाट निकाल्छ, परिणामस्वरूप डेटा र मोडेल पूर्वाग्रह हुन्छ।
- कलाकृतिहरू प्रायः शैलीकृत अनुहार क्षेत्र र अन्य खण्डहरू बीचको आकार भिन्नताको कारणले गर्दा हुन्छन्।
- अनुहार क्षेत्रमा चीजहरूसँग व्यवहार गर्दा यो रणनीति कम सफल हुन्छ।
निष्कर्ष
अन्तमा, VToonify शैली-नियन्त्रित उच्च-रिजोल्युसन भिडियो टुनिफिकेशनको लागि एक रूपरेखा हो।
यस फ्रेमवर्कले भिडियोहरू ह्यान्डल गर्नमा उत्कृष्ट कार्यसम्पादन हासिल गर्छ र ढाँचाको शैली, रङ शैली, र शैली डिग्रीमा स्टाइलगान-आधारित छवि टूनिफिकेशन मोडेलहरूलाई तिनीहरूको दुवै सर्तहरूमा संकुचित गरेर व्यापक नियन्त्रण सक्षम गर्दछ। सिंथेटिक डाटा र नेटवर्क संरचनाहरू।
जवाफ छाड्नुस्