सर्वसाधारणपणे, GANs, VAEs आणि ऑटोरिग्रेसिव्ह मॉडेल्स सारखी सखोल जनरेटिव्ह मॉडेल्स प्रतिमा संश्लेषण समस्या हाताळतात.
त्यांनी तयार केलेल्या डेटाच्या उच्च गुणवत्तेमुळे, अलिकडच्या वर्षांत जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क्स (GANs) वर खूप लक्ष वेधले गेले आहे.
डिफ्यूजन मॉडेल हे अभ्यासाचे आणखी एक आकर्षक क्षेत्र आहे ज्याने स्वतःची स्थापना केली आहे. प्रतिमा, व्हिडीओ आणि व्हॉइस जनरेशन या दोन्ही क्षेत्रांचा या दोन्हीसाठी व्यापक वापर आढळून आला आहे.
डिफ्यूजन मॉडेल वि. GAN: कोणते चांगले परिणाम देतात? साहजिकच यावरून चर्चेला उधाण आले आहे.
GAN म्हणून ओळखल्या जाणार्या संगणकीय आर्किटेक्चरमध्ये, दोन न्यूरल नेटवर्क अस्सल डेटासाठी पास होऊ शकणार्या डेटाची नवीन संश्लेषित उदाहरणे तयार करण्यासाठी एकमेकांशी लढले जातात.
डिफ्यूजन मॉडेल अधिकाधिक लोकप्रिय होत आहेत कारण ते प्रशिक्षण स्थिरता आणि संगीत आणि ग्राफिक्स तयार करण्यासाठी उच्च परिणाम प्रदान करतात.
हा लेख डिफ्यूजन मॉडेल आणि GAN बद्दल तपशीलवार विचार करेल, तसेच ते एकमेकांपासून कसे वेगळे आहेत आणि इतर काही गोष्टी.
तर, जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क्स म्हणजे काय?
डेटाची नवीन, कृत्रिम उदाहरणे तयार करण्यासाठी ज्यांना वास्तविक डेटा चुकीचा वाटू शकतो, जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क्स (GANs) दोन न्यूरल नेटवर्क्स वापरतात आणि त्यांना एकमेकांच्या विरूद्ध खड्डा करतात (अशा प्रकारे नावात "विरोधक").
ते भाषण, व्हिडिओ आणि चित्र निर्मितीसाठी मोठ्या प्रमाणावर वापरले जातात.
GAN चे उद्दिष्ट विशिष्ट डेटासेटमधून पूर्वी न सापडलेला डेटा तयार करणे आहे. नमुन्यांमधून वास्तविक, अज्ञात अंतर्निहित डेटा वितरणाच्या मॉडेलचा अंदाज लावण्याचा प्रयत्न केल्याने, असे होते.
वैकल्पिकरित्या म्हटल्याप्रमाणे, हे नेटवर्क अंतर्निहित मॉडेल आहेत जे विशिष्ट सांख्यिकीय वितरण जाणून घेण्याचा प्रयत्न करतात.
GAN ने हे उद्दिष्ट कसे साध्य करायचे हे शोधण्यासाठी वापरलेली पद्धत ही कादंबरी होती. खरं तर, ते एक अंतर्निहित मॉडेल विकसित करण्यासाठी दोन-प्लेअर गेम खेळून डेटा तयार करतात.
खालील रचना वर्णन करते:
- एक भेदभाव करणारा जो अस्सल आणि बनावट डेटामध्ये फरक करण्याची क्षमता प्राप्त करतो
- डेटा तयार करण्यासाठी नवीन मार्ग निवडणारा जनरेटर भेदभाव करणाऱ्याला फसवू शकतो.
भेदभाव करणारा एक न्यूरल नेटवर्क म्हणून उभा करतो. म्हणून, जनरेटरला फसवण्यासाठी उच्च गुणवत्तेसह चित्र तयार करणे आवश्यक आहे.
हे जनरेटर कोणतेही आउटपुट वितरण वापरून प्रशिक्षित केलेले नाहीत ही वस्तुस्थिती ऑटोएनकोडर मॉडेल्स आणि इतर मॉडेल्समधील महत्त्वपूर्ण फरक आहे.
मॉडेलचे नुकसान कार्य विघटित करण्याचे दोन मार्ग आहेत:
- जर भेदभाव करणार्याने वास्तविक डेटाचा अचूक अंदाज लावला असेल तर प्रमाण ठरवण्याची क्षमता
- व्युत्पन्न केलेल्या डेटाचा एका भागाद्वारे अचूक अंदाज लावला जातो.
सर्वोत्तम व्यवहार्य भेदभावावर, हे नुकसान कार्य नंतर कमी केले जाते:
त्यामुळे जेनेरिक मॉडेल्सचा अंतर कमी करण्याचे मॉडेल म्हणून विचार केला जाऊ शकतो आणि, जर भेदभाव करणारा आदर्श असेल तर, खऱ्या आणि उत्पादित वितरणामध्ये विचलन कमी करणे म्हणून.
प्रत्यक्षात, भिन्न भिन्नता नियोजित केली जाऊ शकते आणि परिणामी विविध GAN प्रशिक्षण पद्धती होऊ शकतात.
GAN चे नुकसान कार्य समायोजित करणे सोपे असूनही, शिकण्याची गतिशीलता, ज्यामध्ये जनरेटर आणि भेदभाव करणार्यांमधील व्यापार-बंद समाविष्ट आहे, ते अनुसरण करणे आव्हानात्मक आहे.
शिकणे एकत्र येईल याचीही खात्री नाही. परिणामी, GAN मॉडेलला प्रशिक्षण देणे अवघड आहे, कारण ते नाहीसे होणारे ग्रेडियंट आणि मोड कोलॅप्स (जेव्हा व्युत्पन्न केलेल्या नमुन्यांमध्ये विविधता नसते) यांसारख्या समस्यांना तोंड देणे सामान्य आहे.
आता, डिफ्यूजन मॉडेल्सची वेळ आली आहे
डिफ्यूजन मॉडेल्सच्या विकासाद्वारे GAN च्या प्रशिक्षण अभिसरणाची समस्या दूर केली गेली आहे.
ही मॉडेल्स असे गृहीत धरतात की प्रसरण प्रक्रिया आवाजाच्या प्रगतीशील हस्तक्षेपामुळे झालेल्या माहितीच्या हानीच्या समतुल्य आहे (प्रसार प्रक्रियेच्या प्रत्येक टप्प्यावर गॉसियन आवाज जोडला जातो).
अशा मॉडेलचा उद्देश नमुन्यातील माहितीवर आवाजाचा कसा परिणाम होतो हे निर्धारित करणे किंवा दुसर्या मार्गाने सांगायचे तर, प्रसारामुळे किती माहिती नष्ट होते.
जर एखादे मॉडेल हे शोधून काढू शकत असेल, तर ते मूळ नमुना पुनर्प्राप्त करण्यात आणि झालेल्या माहितीचे नुकसान पूर्ववत करण्यास सक्षम असले पाहिजे.
हे डिनोइसिंग डिफ्यूजन मॉडेलद्वारे पूर्ण केले जाते. फॉरवर्ड डिफ्यूजन प्रक्रिया आणि रिव्हर्स डिफ्यूजन प्रक्रिया या दोन पायऱ्या बनवतात.
फॉरवर्ड डिफ्यूजन प्रक्रियेमध्ये डेटा पूर्णपणे दूषित होईपर्यंत हळूहळू गॉसियन आवाज (म्हणजे, प्रसार प्रक्रिया) जोडणे समाविष्ट असते.
न्यूरल नेटवर्कला नंतर आवाज उलट करण्यासाठी सशर्त वितरण संभाव्यता जाणून घेण्यासाठी रिव्हर्स डिफ्यूजन पद्धत वापरून प्रशिक्षित केले जाते.
येथे आपण याबद्दल अधिक समजू शकता प्रसार मॉडेल.
डिफ्यूजन मॉडेल वि GAN
प्रसार मॉडेलप्रमाणे, GAN आवाजातून चित्रे तयार करतात.
मॉडेल जनरेटर न्यूरल नेटवर्कचे बनलेले आहे, जे काही माहितीपूर्ण कंडीशनिंग व्हेरिएबलच्या आवाजाने सुरू होते, जसे की क्लास लेबल किंवा मजकूर एन्कोडिंग.
परिणाम नंतर एक वास्तववादी प्रतिमा सारखे काहीतरी असावे.
फोटोरिअलिस्टिक आणि उच्च-विश्वासू चित्र पिढ्या तयार करण्यासाठी, आम्ही GAN वापरतो. GAN पेक्षाही अधिक वास्तववादी व्हिज्युअल डिफ्यूजन मॉडेल वापरून तयार केले जातात.
एक प्रकारे, तथ्यांचे वर्णन करण्यासाठी प्रसार मॉडेल अधिक अचूक आहेत.
GAN इनपुट यादृच्छिक आवाज किंवा क्लास कंडिशनिंग व्हेरिएबल म्हणून घेते आणि एक वास्तववादी नमुना आउटपुट करते, प्रसार मॉडेल बहुतेक वेळा हळू, पुनरावृत्ती होते आणि त्यांना अधिक मार्गदर्शनाची आवश्यकता असते.
गोंगाटातून मूळ प्रतिमेकडे परत येण्याच्या उद्दिष्टाने वारंवार denoising लागू केले जाते तेव्हा त्रुटीसाठी फारशी जागा नसते.
प्रत्येक चेकपॉईंट संपूर्ण निर्मितीच्या टप्प्यातून जातो आणि प्रत्येक चरणासह, चित्र अधिकाधिक माहिती मिळवू शकते.
निष्कर्ष
शेवटी, 2020 आणि 2021 मध्ये प्रकाशित झालेल्या काही महत्त्वपूर्ण संशोधनांमुळे, प्रसार मॉडेल आता चित्र संश्लेषणाच्या बाबतीत GAN ला मागे टाकू शकतात.
या वर्षी OpenAI लाँच केले DALL-E2, एक प्रतिमा उत्पादन मॉडेल जे प्रॅक्टिशनर्सना प्रसार मॉडेल्सची नियुक्ती करण्यास अनुमती देते.
जरी GAN अत्याधुनिक आहेत, त्यांच्या मर्यादांमुळे ते नवीन संदर्भांमध्ये मोजणे आणि वापरणे आव्हानात्मक बनते.
संभाव्यतेवर आधारित मॉडेल्स वापरून GAN सारखी नमुना गुणवत्ता प्राप्त करण्यासाठी, त्यात बरेच काम केले गेले आहे.
प्रत्युत्तर द्या