विषय - सूची[छिपाना][प्रदर्शन]
सामान्य तौर पर, GAN, VAE और ऑटोरेग्रेसिव मॉडल जैसे डीप जनरेटिव मॉडल छवि संश्लेषण समस्याओं को संभालते हैं।
उनके द्वारा बनाए गए डेटा की उच्च गुणवत्ता को देखते हुए, हाल के वर्षों में जनरेटिव एडवरसैरियल नेटवर्क (जीएएन) पर बहुत ध्यान दिया गया है।
प्रसार मॉडल अध्ययन का एक और आकर्षक क्षेत्र है जिसने खुद को स्थापित किया है। छवि, वीडियो और आवाज निर्माण दोनों के क्षेत्रों ने दोनों के लिए व्यापक उपयोग पाया है।
प्रसार मॉडल बनाम GAN: कौन सा बेहतर परिणाम देता है? स्वाभाविक रूप से, इसने एक सतत चर्चा को जन्म दिया है।
कम्प्यूटेशनल आर्किटेक्चर में GAN के रूप में जाना जाता है, दो तंत्रिका जाल डेटा के नए संश्लेषित उदाहरणों का उत्पादन करने के लिए एक दूसरे के खिलाफ लड़े जाते हैं जो वास्तविक डेटा के लिए पारित हो सकते हैं।
प्रसार मॉडल अधिक से अधिक लोकप्रिय हो रहे हैं क्योंकि वे संगीत और ग्राफिक्स के उत्पादन के लिए प्रशिक्षण स्थिरता और उच्च परिणाम प्रदान करते हैं।
यह लेख प्रसार मॉडल और जीएएन के बारे में विस्तार से बताएगा, साथ ही साथ वे एक दूसरे से और कुछ अन्य चीजों से कैसे भिन्न हैं।
तो, जनरेटिव एडवरसैरियल नेटवर्क क्या हैं?
डेटा के नए, कृत्रिम उदाहरण बनाने के लिए, जो वास्तविक डेटा के लिए गलत हो सकते हैं, जनरेटिव एडवरसैरियल नेटवर्क (GAN) दो तंत्रिका नेटवर्क को नियोजित करते हैं और उन्हें एक दूसरे के खिलाफ गड्ढे में डालते हैं (इस प्रकार नाम में "प्रतिकूल")।
उनका व्यापक रूप से भाषण, वीडियो और चित्र निर्माण के लिए उपयोग किया जाता है।
GAN का उद्देश्य एक विशिष्ट डेटासेट से पहले अनदेखा डेटा बनाना है। नमूनों से वास्तविक, अज्ञात अंतर्निहित डेटा वितरण के एक मॉडल का अनुमान लगाने का प्रयास, ऐसा करता है।
वैकल्पिक रूप से कहा गया है, ये नेटवर्क निहित मॉडल हैं जो एक विशिष्ट सांख्यिकीय वितरण को सीखने का प्रयास करते हैं।
इस उद्देश्य को पूरा करने के तरीके की खोज के लिए GAN ने जिस पद्धति का उपयोग किया वह उपन्यास था। वास्तव में, वे एक अंतर्निहित मॉडल विकसित करने के लिए दो-खिलाड़ी गेम खेलकर डेटा का उत्पादन करते हैं।
निम्नलिखित संरचना का वर्णन करता है:
- एक भेदभाव करने वाला जो प्रामाणिक और नकली डेटा के बीच अंतर करने की क्षमता हासिल करता है
- एक जनरेटर जो डेटा बनाने के नए तरीके चुनता है, वह विवेचक को धोखा दे सकता है।
विवेचक एक तंत्रिका नेटवर्क के रूप में प्रस्तुत करता है। इसलिए, जनरेटर को चकमा देने के लिए उच्च गुणवत्ता वाली तस्वीर बनाने की जरूरत है।
तथ्य यह है कि इन जनरेटर को किसी भी आउटपुट वितरण का उपयोग करके प्रशिक्षित नहीं किया जाता है, यह ऑटोएन्कोडर मॉडल और अन्य मॉडलों के बीच एक महत्वपूर्ण अंतर है।
मॉडल के नुकसान फ़ंक्शन को विघटित करने के दो तरीके हैं:
- यह निर्धारित करने की क्षमता कि क्या विवेचक वास्तविक डेटा का सटीक अनुमान लगाता है
- उत्पन्न डेटा का एक हिस्से द्वारा सटीक भविष्यवाणी की जाती है।
सर्वोत्तम व्यवहार्य विवेचक पर, इस हानि फ़ंक्शन को तब न्यूनतम किया जाता है:
इसलिए जेनेरिक मॉडल को दूरी न्यूनीकरण मॉडल के रूप में माना जा सकता है और, यदि विवेचक आदर्श है, तो सच्चे और उत्पादित वितरण के बीच विचलन न्यूनीकरण के रूप में।
वास्तव में, विभिन्न विचलनों को नियोजित किया जा सकता है और इसके परिणामस्वरूप विभिन्न GAN प्रशिक्षण विधियां हो सकती हैं।
सीखने की गतिशीलता, जिसमें जनरेटर और विवेचक के बीच एक ट्रेड-ऑफ शामिल है, का पालन करना चुनौतीपूर्ण है, हालांकि यह GAN के नुकसान फ़ंक्शन को समायोजित करने के लिए सरल है।
इस बात का भी कोई आश्वासन नहीं है कि सीखने का अभिसरण होगा। नतीजतन, एक GAN मॉडल को प्रशिक्षित करना मुश्किल है, क्योंकि यह गायब होने वाले ग्रेडिएंट और मोड के पतन (जब उत्पन्न नमूनों में कोई विविधता नहीं है) जैसी समस्याओं के लिए विशिष्ट है।
अब, प्रसार मॉडल का समय आ गया है
प्रसार मॉडल के विकास के माध्यम से GAN के प्रशिक्षण अभिसरण की समस्या का समाधान किया गया है।
ये मॉडल मानते हैं कि एक प्रसार प्रक्रिया शोर के प्रगतिशील हस्तक्षेप (प्रसार प्रक्रिया के हर समय पर एक गाऊसी शोर जोड़ा जाता है) द्वारा लाई गई सूचना हानि के बराबर है।
ऐसे मॉडल का उद्देश्य यह निर्धारित करना है कि शोर नमूने में मौजूद जानकारी को कैसे प्रभावित करता है, या इसे दूसरे तरीके से कहें तो प्रसार के कारण कितनी जानकारी खो जाती है।
यदि कोई मॉडल इसका पता लगा सकता है, तो उसे मूल नमूने को पुनः प्राप्त करने और होने वाली सूचना हानि को पूर्ववत करने में सक्षम होना चाहिए।
यह एक denoising प्रसार मॉडल के माध्यम से पूरा किया जाता है। एक आगे प्रसार प्रक्रिया और एक रिवर्स प्रसार प्रक्रिया दो चरणों को बनाती है।
आगे प्रसार प्रक्रिया में धीरे-धीरे गाऊसी शोर (यानी प्रसार प्रक्रिया) जोड़ना शामिल है जब तक कि डेटा पूरी तरह से शोर से दूषित न हो जाए।
शोर को उलटने के लिए सशर्त वितरण संभावनाओं को सीखने के लिए तंत्रिका नेटवर्क को बाद में रिवर्स डिफ्यूजन विधि का उपयोग करके प्रशिक्षित किया जाता है।
यहाँ आप के बारे में अधिक समझ सकते हैं प्रसार मॉडल.
प्रसार मॉडल बनाम GANs
प्रसार मॉडल की तरह, GAN शोर से चित्र तैयार करते हैं।
मॉडल एक जनरेटर तंत्रिका नेटवर्क से बना है, जो कुछ सूचनात्मक कंडीशनिंग चर के शोर से शुरू होता है, जैसे कि क्लास लेबल या टेक्स्ट एन्कोडिंग।
परिणाम तब कुछ ऐसा होना चाहिए जो एक यथार्थवादी छवि जैसा दिखता हो।
फोटोरिअलिस्टिक और हाई-फिडेलिटी पिक्चर जेनरेशन बनाने के लिए, हम GAN को नियोजित करते हैं। प्रसार मॉडल का उपयोग करके GAN से भी अधिक यथार्थवादी दृश्य तैयार किए जाते हैं।
एक तरह से, तथ्यों का वर्णन करने में प्रसार मॉडल अधिक सटीक होते हैं।
जबकि एक GAN इनपुट यादृच्छिक शोर या एक क्लास कंडीशनिंग चर के रूप में लेता है और एक यथार्थवादी नमूना आउटपुट करता है, प्रसार मॉडल अक्सर धीमे, पुनरावृत्त होते हैं, और बहुत अधिक मार्गदर्शन की आवश्यकता होती है।
शोर से मूल छवि पर लौटने के लक्ष्य के साथ बार-बार denoising लागू करते समय त्रुटि के लिए बहुत जगह नहीं है।
प्रत्येक चेकपॉइंट पूरे निर्माण चरण के माध्यम से पारित किया जाता है, और प्रत्येक चरण के साथ, चित्र अधिक से अधिक जानकारी प्राप्त कर सकता है।
निष्कर्ष
अंत में, कुछ महत्वपूर्ण शोधों के कारण जो केवल 2020 और 2021 में प्रकाशित हुए थे, प्रसार मॉडल अब चित्र संश्लेषण के मामले में GAN से बेहतर प्रदर्शन कर सकते हैं।
इस साल, OpenAI ने लॉन्च किया दाल-ई 2, एक छवि उत्पादन मॉडल जो चिकित्सकों को प्रसार मॉडल नियोजित करने की अनुमति देता है।
हालांकि GAN अत्याधुनिक हैं, लेकिन उनकी बाधाएं इसे नए संदर्भों में स्केल करना और उनका उपयोग करना चुनौतीपूर्ण बनाती हैं।
संभावना-आधारित मॉडल का उपयोग करके GAN जैसी नमूना गुणवत्ता प्राप्त करने के लिए, इसमें बहुत काम किया गया है।
एक जवाब लिखें