विषयसूची[लुकाउनुहोस्][देखाउनु]
सामान्यतया, गहिरो उत्पादन मोडेलहरू जस्तै GANs, VAEs, र autoregressive मोडेलहरूले छवि संश्लेषण समस्याहरू ह्यान्डल गर्छन्।
उनीहरूले सिर्जना गर्ने डाटाको उच्च गुणस्तरलाई ध्यानमा राख्दै, जेनेरेटिभ एडभर्सरियल नेटवर्कहरू (GANs) ले हालका वर्षहरूमा धेरै ध्यान प्राप्त गरेको छ।
प्रसार मोडेलहरू अध्ययनको अर्को आकर्षक क्षेत्र हो जसले आफैलाई स्थापित गरेको छ। छवि, भिडियो, र आवाज उत्पादन को क्षेत्रहरु दुबै को लागी व्यापक प्रयोग भएको छ।
डिफ्यूजन मोडेल बनाम GANs: कुनले राम्रो नतिजा दिन्छ? स्वाभाविक रूपमा, यसले निरन्तर बहसको नेतृत्व गरेको छ।
GAN भनेर चिनिने कम्प्युटेशनल आर्किटेक्चरमा, दुई तंत्रिका सञ्जालहरू वास्तविक डाटाको लागि पास गर्न सक्ने डाटाको नयाँ संश्लेषित उदाहरणहरू उत्पादन गर्न एकअर्का विरुद्ध लडाइन्छ।
प्रसार मोडेलहरू अधिक र अधिक लोकप्रिय हुँदैछन् किनभने तिनीहरूले प्रशिक्षण स्थिरता र संगीत र ग्राफिक्स उत्पादनको लागि उच्च परिणामहरू प्रदान गर्छन्।
यस लेखमा विस्तार मोडेल र GANs मार्फत जानेछ, साथै तिनीहरू कसरी एकअर्का र केही अन्य चीजहरूबाट भिन्न छन्।
त्यसोभए, जेनेरेटिभ एडभर्सरियल नेटवर्कहरू के हुन्?
वास्तविक डाटाको लागि गलत हुन सक्ने डाटाको नयाँ, कृत्रिम उदाहरणहरू सिर्जना गर्न, जेनेरेटिभ एडभर्सरियल नेटवर्कहरू (GANs) ले दुई न्यूरल नेटवर्कहरू प्रयोग गर्छन् र तिनीहरूलाई एकअर्काको विरुद्धमा राख्छन् (यसैले नाममा "विपरित")।
तिनीहरू भाषण, भिडियो, र चित्र निर्माणको लागि व्यापक रूपमा प्रयोग गरिन्छ।
GAN को उद्देश्य एक विशिष्ट डेटासेटबाट पहिले पत्ता नलागेको डाटा सिर्जना गर्नु हो। नमूनाहरूबाट वास्तविक, अज्ञात अन्तर्निहित डाटा वितरणको मोडेल अनुमान गर्ने प्रयास गर्दा, यसले गर्छ।
वैकल्पिक रूपमा भनिएको छ, यी सञ्जालहरू निहित मोडेलहरू हुन् जसले एक विशेष सांख्यिकीय वितरण सिक्ने प्रयास गर्दछ।
GAN ले यो उद्देश्य कसरी पूरा गर्ने भनेर पत्ता लगाउन प्रयोग गरेको विधि उपन्यास थियो। वास्तवमा, तिनीहरू एक निहित मोडेल विकास गर्न दुई-खेलाडी खेल खेलेर डाटा उत्पादन गर्छन्।
निम्न संरचना वर्णन गर्दछ:
- एक भेदभावकर्ता जसले प्रामाणिक र नक्कली डाटा बीच भिन्नता प्राप्त गर्ने क्षमता प्राप्त गर्दछ
- डाटा सिर्जना गर्न नयाँ तरिकाहरू उठाउने जनरेटरले भेदभाव गर्नेलाई छल गर्न सक्छ।
भेदभाव गर्नेले न्यूरल नेटवर्कको रूपमा प्रस्तुत गर्दछ। त्यसकारण, जेनेरेटरले यसलाई छल गर्न उच्च गुणस्तरको चित्र सिर्जना गर्न आवश्यक छ।
यी जेनेरेटरहरू कुनै पनि आउटपुट वितरण प्रयोग गरेर प्रशिक्षित छैनन् भन्ने तथ्य अटोएनकोडर मोडेलहरू र अन्य मोडेलहरू बीचको महत्त्वपूर्ण भिन्नता हो।
मोडेलको हानि प्रकार्य विघटन गर्न दुई तरिकाहरू छन्:
- यदि भेदभावकर्ताले वास्तविक डाटाको सही पूर्वानुमान गर्छ भने परिमाण निर्धारण गर्ने क्षमता
- उत्पन्न डाटा एक भाग द्वारा सही भविष्यवाणी गरिएको छ।
सबै भन्दा राम्रो सम्भाव्य भेदभावकर्तामा, यो हानि प्रकार्य त्यसपछि न्यूनतम हुन्छ:
त्यसैले जेनेरिक मोडेलहरूलाई दूरी न्यूनीकरण मोडेलको रूपमा सोच्न सकिन्छ र, यदि भेदभाव गर्ने आदर्श हो भने, सत्य र उत्पादित वितरण बीचको भिन्नता न्यूनीकरणको रूपमा।
वास्तविकतामा, विभिन्न भिन्नताहरू नियोजित हुन सक्छन् र परिणामहरू विभिन्न GAN प्रशिक्षण विधिहरूमा हुन सक्छन्।
GANs को नोक्सान कार्य समायोजन गर्न सरल भए तापनि जेनेरेटर र भेदभाव गर्ने बीचको व्यापार-अफ समावेश गर्ने सिकाइ गतिशीलतालाई पछ्याउन चुनौतीपूर्ण छ।
त्यहाँ पनि कुनै आश्वासन छैन कि सिकाइ एकरूप हुनेछ। नतिजाको रूपमा, GAN मोडेललाई तालिम दिन गाह्रो छ, किनकि यो हराउने ढाँचा र मोड पतन (जेनरेट गरिएका नमूनाहरूमा कुनै विविधता नभएको बेला) जस्ता समस्याहरूमा चल्नु सामान्य हो।
अब, यो प्रसार मोडेल को लागी समय हो
GANs को प्रशिक्षण अभिसरण संग समस्या को प्रसार मोडेल को विकास मार्फत सम्बोधन गरिएको छ।
यी मोडेलहरूले मान्छन् कि एक प्रसार प्रक्रिया आवाजको प्रगतिशील हस्तक्षेप द्वारा ल्याइएको जानकारी हानिको बराबर हो (प्रसार प्रक्रियाको प्रत्येक चरणमा गाउसियन आवाज थपिन्छ)।
यस्तो मोडेलको उद्देश्य नमूनामा रहेको जानकारीलाई आवाजले कसरी असर गर्छ भन्ने निर्धारण गर्नु हो, वा अर्को तरिकामा भन्नुपर्दा, प्रसारको कारणले कति जानकारी हराएको छ।
यदि एक मोडेलले यो पत्ता लगाउन सक्छ भने, यसले मूल नमूना पुन: प्राप्त गर्न र भएको जानकारी हानिलाई पूर्ववत गर्न सक्षम हुनुपर्छ।
यो एक denoising प्रसार मोडेल मार्फत पूरा हुन्छ। अगाडि फैलाउने प्रक्रिया र रिभर्स डिफ्यूजन प्रक्रियाले दुई चरणहरू बनाउँछ।
फर्वार्ड डिफ्युजन प्रक्रियाले डेटा पूर्णतया शोरबाट दूषित नभएसम्म गाउसियन नाइज (अर्थात्, प्रसार प्रक्रिया) थप्दै जान्छ।
तंत्रिका सञ्जाल पछि आवाज रिभर्स गर्न सशर्त वितरण सम्भाव्यताहरू सिक्न रिभर्स प्रसार विधि प्रयोग गरी प्रशिक्षित गरिन्छ।
यहाँ तपाईं बारे थप बुझ्न सक्नुहुन्छ प्रसार मोडेल.
डिफ्यूजन मोडेल बनाम GANs
एक प्रसार मोडेल जस्तै, GAN ले शोरबाट चित्रहरू उत्पादन गर्दछ।
मोडेल जेनेरेटर न्यूरल नेटवर्कबाट बनेको हुन्छ, जुन केही सूचनात्मक कन्डिसनिङ चरको आवाजबाट सुरु हुन्छ, जस्तै क्लास लेबल वा टेक्स्ट इन्कोडिङ।
परिणाम त्यसपछि एक यथार्थवादी छवि जस्तै केहि हुनुपर्छ।
फोटोरियलिस्टिक र उच्च फिडेलिटी तस्विर पुस्ताहरू सिर्जना गर्न, हामी GANहरू प्रयोग गर्छौं। GANs भन्दा पनि अधिक यथार्थवादी दृश्यहरू प्रसार मोडेलहरू प्रयोग गरेर उत्पादन गरिन्छ।
एक तरिकामा, प्रसार मोडेल तथ्यहरु को वर्णन मा अधिक सटीक छन्।
जबकि GAN ले इनपुट अनियमित आवाज वा क्लास कन्डिसन चरको रूपमा लिन्छ र एक यथार्थपरक नमूना आउटपुट गर्दछ, प्रसार मोडेलहरू प्रायः ढिलो, पुनरावृत्ति, र धेरै मार्गदर्शन चाहिन्छ।
शोरबाट मूल छविमा फर्कने लक्ष्यको साथ बारम्बार denoising लागू गर्दा त्रुटिको लागि धेरै ठाउँ छैन।
प्रत्येक चेकपोइन्ट सृजना चरणमा पार गरिन्छ, र प्रत्येक चरणको साथ, चित्रले थप र थप जानकारी प्राप्त गर्न सक्छ।
निष्कर्ष
निष्कर्षमा, २०२० र २०२१ मा मात्र प्रकाशित भएको केही महत्त्वपूर्ण अनुसन्धानका कारण, डिफ्युजन मोडेलहरूले अब तस्विर संश्लेषणको सन्दर्भमा GAN लाई पछाडि पार्न सक्छ।
यो वर्ष, OpenAI सुरु भयो DALL-E2, एक छवि उत्पादन मोडेल जसले अभ्यासकर्ताहरूलाई प्रसार मोडेलहरू प्रयोग गर्न अनुमति दिन्छ।
यद्यपि GAN हरू अत्याधुनिक छन्, तिनीहरूका बाधाहरूले तिनीहरूलाई मापन गर्न र नयाँ सन्दर्भहरूमा प्रयोग गर्न चुनौतीपूर्ण बनाउँछ।
सम्भावना-आधारित मोडेलहरू प्रयोग गरेर GAN-जस्तो नमूना गुणस्तर प्राप्त गर्न, यसमा धेरै काम गरिएको छ।
जवाफ छाड्नुस्