संगणकीय दृष्टी आणि ग्राफिक्समध्ये सर्वोच्च कॅलिबरच्या सर्जनशील पोर्ट्रेट चित्रपटांची निर्मिती करणे हे एक महत्त्वपूर्ण आणि इष्ट कार्य आहे.
जरी शक्तिशाली स्टाइलगॅनवर आधारित पोर्ट्रेट इमेज टूनिफिकेशनसाठी अनेक प्रभावी मॉडेल्स प्रस्तावित केली गेली असली तरी, या इमेज-ओरिएंटेड तंत्रांमध्ये व्हिडिओसह वापरताना स्पष्ट त्रुटी आहेत, जसे की निश्चित फ्रेम आकार, चेहऱ्याच्या संरेखनाची आवश्यकता, चेहऱ्याच्या नसलेल्या तपशीलांची अनुपस्थिती. , आणि ऐहिक विसंगती.
एक क्रांतिकारी VToonify फ्रेमवर्क कठीण नियंत्रित उच्च-रिझोल्यूशन पोर्ट्रेट व्हिडिओ शैली हस्तांतरण हाताळण्यासाठी वापरले जाते.
आम्ही या लेखात VToonify वरील सर्वात अलीकडील अभ्यासाचे परीक्षण करू, त्याची कार्यक्षमता, कमतरता आणि इतर घटकांसह.
Vtoonify म्हणजे काय?
VToonify फ्रेमवर्क सानुकूल करण्यायोग्य उच्च-रिझोल्यूशन पोर्ट्रेट व्हिडिओ शैली प्रसारणास अनुमती देते.
VToonify फ्रेम तपशील टिकवून ठेवण्यासाठी एन्कोडरद्वारे पुनर्प्राप्त केलेल्या मल्टी-स्केल सामग्री वैशिष्ट्यांवर आधारित उच्च-गुणवत्तेचे कलात्मक पोट्रेट तयार करण्यासाठी StyleGAN चे मध्यम आणि उच्च-रिझोल्यूशन स्तर वापरते.
परिणामी पूर्णतः कन्व्होल्युशनल आर्किटेक्चर व्हेरिएबल-आकाराच्या चित्रपटांमध्ये नॉन-लाइन केलेले चेहरे इनपुट म्हणून घेते, परिणामी आउटपुटमध्ये वास्तववादी हालचालींसह संपूर्ण-चेहऱ्याचे क्षेत्र बनतात.
हे फ्रेमवर्क सध्याच्या StyleGAN-आधारित इमेज टूनिफिकेशन मॉडेल्सशी सुसंगत आहे, ज्यामुळे त्यांना व्हिडिओ टूनिफिकेशनपर्यंत विस्तारित केले जाऊ शकते आणि समायोज्य रंग आणि तीव्रता कस्टमायझेशन यासारखी आकर्षक वैशिष्ट्ये वारशाने मिळतात.
या अभ्यास Toonify आणि DualStyleGAN वर आधारित VToonify चे अनुक्रमे संकलन-आधारित आणि उदाहरण-आधारित पोर्ट्रेट व्हिडिओ शैली हस्तांतरणासाठी दोन इंस्टेंटेशन्स सादर केले आहेत.
विस्तृत प्रायोगिक निष्कर्ष दर्शविते की प्रस्तावित VToonify फ्रेमवर्क उच्च-गुणवत्तेचे, तात्पुरते-सुसंगत कलात्मक पोर्ट्रेट चित्रपट बनवण्याच्या विद्यमान दृष्टिकोनांपेक्षा व्हेरिएबल शैली पॅरामीटर्ससह कार्य करते.
संशोधक प्रदान करतात Google Colab नोटबुक, त्यामुळे तुम्ही त्यावर आपले हात घाण करू शकता.
हे कस काम करत?
समायोज्य उच्च-रिझोल्यूशन पोर्ट्रेट व्हिडिओ शैली हस्तांतरण पूर्ण करण्यासाठी, VToonify प्रतिमा अनुवाद फ्रेमवर्कचे फायदे StyleGAN-आधारित फ्रेमवर्कसह एकत्र करते.
वेगवेगळ्या इनपुट आकारांना सामावून घेण्यासाठी, प्रतिमा भाषांतर प्रणाली पूर्णतः कल्पक नेटवर्क वापरते. दुसरीकडे, सुरवातीपासून प्रशिक्षण, उच्च-रिझोल्यूशन आणि नियंत्रित शैलीचे प्रसारण अशक्य करते.
पूर्व-प्रशिक्षित StyleGAN मॉडेल उच्च-रिझोल्यूशन आणि नियंत्रित शैली हस्तांतरणासाठी StyleGAN-आधारित फ्रेमवर्कमध्ये वापरले जाते, जरी ते निश्चित चित्र आकार आणि तपशीलांच्या नुकसानापुरते मर्यादित आहे.
StyleGAN संकरित फ्रेमवर्कमध्ये त्याचे निश्चित-आकाराचे इनपुट वैशिष्ट्य आणि कमी-रिझोल्यूशन लेयर्स हटवून सुधारित केले आहे, परिणामी इमेज ट्रान्सलेशन फ्रेमवर्क प्रमाणेच एक पूर्णपणे कॉन्व्होल्युशनल एन्कोडर-जनरेटर आर्किटेक्चर बनते.
फ्रेम तपशील राखण्यासाठी, जनरेटरला अतिरिक्त सामग्रीची आवश्यकता म्हणून इनपुट फ्रेमची मल्टी-स्केल सामग्री वैशिष्ट्ये काढण्यासाठी एन्कोडरला प्रशिक्षित करा. Vtoonify ला स्टाईलगॅन मॉडेलची शैली नियंत्रण लवचिकता जनरेटरमध्ये टाकून त्याचा डेटा आणि मॉडेल दोन्ही डिस्टिल करण्यासाठी वारशाने मिळते.
StyleGAN आणि प्रस्तावित Vtoonify च्या मर्यादा
कलात्मक पोर्ट्रेट आपल्या दैनंदिन जीवनात तसेच कला यासारख्या सर्जनशील व्यवसायांमध्ये सामान्य आहेत. सामाजिक मीडिया अवतार, चित्रपट, करमणूक जाहिराती इ.
च्या विकासासह खोल शिकणे तंत्रज्ञान, स्वयंचलित पोर्ट्रेट शैली हस्तांतरण वापरून वास्तविक जीवनातील चेहरा फोटोंमधून उच्च-गुणवत्तेची कलात्मक पोट्रेट तयार करणे आता शक्य आहे.
प्रतिमा-आधारित शैली हस्तांतरणासाठी अनेक यशस्वी मार्ग तयार केले गेले आहेत, त्यापैकी बरेच मोबाइल अनुप्रयोगांच्या रूपात सुरुवातीच्या वापरकर्त्यांसाठी सहज उपलब्ध आहेत. व्हिडीओ मटेरिअल हा गेल्या अनेक वर्षांपासून आमच्या सोशल मीडिया फीडचा झपाट्याने मुख्य आधार बनला आहे.
सोशल मीडिया आणि तात्कालिक चित्रपटांच्या उदयामुळे यशस्वी आणि मनोरंजक व्हिडिओ तयार करण्यासाठी पोर्ट्रेट व्हिडिओ शैली हस्तांतरणासारख्या नाविन्यपूर्ण व्हिडिओ संपादनाची मागणी वाढली आहे.
सध्याच्या इमेज-ओरिएंटेड तंत्रांचे मूव्हीजवर लागू करताना लक्षणीय तोटे आहेत, स्वयंचलित पोर्ट्रेट व्हिडिओ शैलीकरणामध्ये त्यांची उपयुक्तता मर्यादित करते.
स्टाइलगॅन हे पोर्ट्रेट पिक्चर स्टाइल ट्रान्सफर मॉडेल विकसित करण्यासाठी एक सामान्य कणा आहे कारण ते अॅडजस्टेबल स्टाइल मॅनेजमेंटसह उच्च-गुणवत्तेचे चेहरे तयार करण्याच्या क्षमतेमुळे.
स्टाइलगॅन-आधारित प्रणाली (पिक्चर टूनिफिकेशन म्हणूनही ओळखली जाते) स्टाइलगॅन अव्यक्त जागेत वास्तविक चेहरा एन्कोड करते आणि नंतर एक शैलीकृत आवृत्ती तयार करण्यासाठी कलात्मक पोर्ट्रेट डेटासेटवर स्टाईलगॅन फाइन-ट्यून केलेल्या दुसर्या स्टाइलगॅनवर परिणामी स्टाईल कोड लागू करते.
StyleGAN संरेखित चेहऱ्यांसह आणि निश्चित आकारात चित्रे तयार करते, जे वास्तविक-जागतिक फुटेजमध्ये डायनॅमिक चेहऱ्यांना पसंत करत नाही. व्हिडिओमध्ये चेहरा क्रॉप करणे आणि संरेखन केल्याने काहीवेळा चेहरा अर्धवट आणि अस्ताव्यस्त जेश्चर होतो. संशोधक या समस्येला StyleGAN चे 'निश्चित-पीक निर्बंध' म्हणतात.
अलाइन चेहऱ्यांसाठी, StyleGAN3 प्रस्तावित केले आहे; तथापि, ते फक्त एका सेट चित्र आकाराचे समर्थन करते.
शिवाय, अलीकडील अभ्यासात असे आढळून आले आहे की अलाइन चेहऱ्यांचे एन्कोडिंग संरेखित चेहऱ्यांपेक्षा अधिक आव्हानात्मक आहे. चुकीचे फेस एन्कोडिंग पोर्ट्रेट शैली हस्तांतरणासाठी हानिकारक आहे, परिणामी ओळख बदलणे आणि पुनर्रचना केलेल्या आणि शैलीबद्ध फ्रेममधील घटक गहाळ होणे यासारख्या समस्या उद्भवतात.
चर्चा केल्याप्रमाणे, पोर्ट्रेट व्हिडिओ शैली हस्तांतरणासाठी कार्यक्षम तंत्राने खालील समस्या हाताळल्या पाहिजेत:
- वास्तववादी हालचाली टिकवून ठेवण्यासाठी, दृष्टीकोन असंरेखित चेहरे आणि विविध व्हिडिओ आकारांना सामोरे जाण्यास सक्षम असणे आवश्यक आहे. एक मोठा व्हिडिओ आकार, किंवा दृश्याचा विस्तृत कोन, चेहरा फ्रेमच्या बाहेर जाण्यापासून रोखत असताना अधिक माहिती कॅप्चर करू शकतो.
- आजच्या सामान्यतः वापरल्या जाणार्या एचडी गॅझेट्सशी स्पर्धा करण्यासाठी, उच्च-रिझोल्यूशन व्हिडिओ आवश्यक आहे.
- वास्तववादी वापरकर्ता परस्परसंवाद प्रणाली विकसित करताना वापरकर्त्यांना त्यांची निवड बदलण्यासाठी आणि निवडण्यासाठी लवचिक शैली नियंत्रण दिले जावे.
त्या उद्देशाने, संशोधक VToonify, व्हिडिओ टूनिफिकेशनसाठी एक नवीन संकरित फ्रेमवर्क सुचवतात. निश्चित पीक मर्यादांवर मात करण्यासाठी, संशोधक प्रथम StyleGAN मध्ये भाषांतर समतुल्यतेचा अभ्यास करतात.
VToonify स्टाइलगॅन-आधारित आर्किटेक्चर आणि इमेज ट्रान्सलेशन फ्रेमवर्कचे फायदे एकत्रित उच्च-रिझोल्यूशन पोर्ट्रेट व्हिडिओ शैली हस्तांतरण प्राप्त करण्यासाठी करते.
खालील प्रमुख योगदान आहेत:
- संशोधक StyleGAN च्या निश्चित-पीक मर्यादा तपासतात आणि भाषांतर समतुल्यतेवर आधारित उपाय सुचवतात.
- संशोधकांनी नियंत्रित उच्च-रिझोल्यूशन पोर्ट्रेट व्हिडिओ शैली हस्तांतरणासाठी एक अद्वितीय पूर्णतया कन्व्होल्युशनल VToonify फ्रेमवर्क सादर केले जे अलाइन चेहऱ्यांना आणि वेगवेगळ्या व्हिडिओ आकारांना समर्थन देते.
- संशोधकांनी Toonify आणि DualStyleGAN च्या पाठीमागे VToonify तयार केले आणि संग्रह-आधारित आणि उदाहरण-आधारित पोर्ट्रेट व्हिडिओ शैली हस्तांतरण सक्षम करण्यासाठी डेटा आणि मॉडेल दोन्हीच्या दृष्टीने पाठीचा कणा संकुचित केला.
Vtoonify ची इतर अत्याधुनिक मॉडेल्सशी तुलना करणे
Toonify
हे StyleGAN वापरून संरेखित चेहऱ्यांवर संग्रह-आधारित शैली हस्तांतरणासाठी पाया म्हणून काम करते. शैली कोड पुनर्प्राप्त करण्यासाठी, संशोधकांनी PSP साठी चेहरे संरेखित करणे आणि 256256 फोटो क्रॉप करणे आवश्यक आहे. Toonify चा वापर 1024*1024 शैली कोडसह एक शैलीकृत परिणाम व्युत्पन्न करण्यासाठी केला जातो.
शेवटी, ते व्हिडिओमधील परिणाम त्याच्या मूळ स्थानावर पुन्हा संरेखित करतात. शैली नसलेले क्षेत्र काळ्यावर सेट केले आहे.
DualStyleGAN
स्टाइलगॅनवर आधारित नमुना-आधारित शैली हस्तांतरणासाठी हा एक आधार आहे. ते Toonify प्रमाणेच डेटा प्री- आणि पोस्ट-प्रोसेसिंग तंत्र वापरतात.
Pix2pixHD
हे इमेज-टू-इमेज भाषांतर मॉडेल आहे जे सामान्यतः उच्च-रिझोल्यूशन संपादनासाठी पूर्व-प्रशिक्षित मॉडेल्स कंडेन्स करण्यासाठी वापरले जाते. जोडलेल्या डेटाचा वापर करून प्रशिक्षण दिले जाते.
संशोधक pix2pixHD चा अतिरिक्त उदाहरण नकाशा इनपुट म्हणून वापर करतात कारण ते काढलेले पार्सिंग नकाशा वापरतात.
प्रथम ऑर्डर मोशन
FOM हे एक सामान्य प्रतिमा अॅनिमेशन मॉडेल आहे. हे 256256 चित्रांवर प्रशिक्षित होते आणि इतर प्रतिमा आकारांसह खराब कामगिरी करते. परिणामी, संशोधकांनी प्रथम व्हिडिओ फ्रेम्सला FOM साठी अॅनिमेशनसाठी 256*256 पर्यंत स्केल केले आणि नंतर परिणामांचा आकार त्यांच्या मूळ आकारात बदलला.
वाजवी तुलनेसाठी, FOM त्याच्या दृष्टीकोनाची पहिली शैलीकृत फ्रेम त्याच्या संदर्भ शैली प्रतिमा म्हणून वापरते.
डगन
हे 3D फेस अॅनिमेशन मॉडेल आहे. ते FOM प्रमाणेच डेटा तयार करणे आणि पोस्टप्रोसेसिंग पद्धती वापरतात.
फायदे
- हे कला, सोशल मीडिया अवतार, चित्रपट, मनोरंजन जाहिराती इत्यादींमध्ये वापरले जाऊ शकते.
- Vtoonify मेटाव्हर्समध्ये देखील वापरला जाऊ शकतो.
मर्यादा
- ही पद्धत स्टाइलगॅन-आधारित बॅकबोन्समधून डेटा आणि मॉडेल दोन्ही काढते, परिणामी डेटा आणि मॉडेल बायस होतो.
- कलाकृती मुख्यतः शैलीकृत चेहर्याचा प्रदेश आणि इतर विभागांमधील आकारातील फरकांमुळे होतात.
- चेहरा प्रदेशातील गोष्टी हाताळताना ही रणनीती कमी यशस्वी होते.
निष्कर्ष
शेवटी, VToonify हे शैली-नियंत्रित उच्च-रिझोल्यूशन व्हिडिओ टूनिफिकेशनसाठी एक फ्रेमवर्क आहे.
हे फ्रेमवर्क व्हिडीओज हाताळण्यात उत्कृष्ट कार्यप्रदर्शन प्राप्त करते आणि स्टाईलगॅन-आधारित प्रतिमा टूनिफिकेशन मॉडेल्सना कंडेन्स करून स्ट्रक्चरल स्टाइल, कलर स्टाइल आणि स्टाइल डिग्रीवर व्यापक नियंत्रण सक्षम करते. सिंथेटिक डेटा आणि नेटवर्क संरचना.
प्रत्युत्तर द्या