प्रसार मॉडल का परिचय

विषय - सूची[छिपाना][प्रदर्शन]

डिफ्यूजन मॉडल क्या है?
डीप डाइव इन डिफ्यूजन मॉडल+-
अंतिम उद्देश्य
प्रसार मॉडल के लाभ
निष्कर्ष

हाल के वर्षों में, "प्रसार मॉडल" नामक जनरेटिव मॉडल तेजी से लोकप्रिय हो गए हैं, और अच्छे कारण के साथ।

दुनिया ने देखा है कि डिफ्यूजन मॉडल क्या करने में सक्षम हैं, जैसे कि पिक्चर सिंथेसिस पर GAN से बेहतर प्रदर्शन, केवल 2020 और 2021 में प्रकाशित कुछ चुनिंदा लैंडमार्क प्रकाशनों के लिए धन्यवाद।

चिकित्सकों ने हाल ही में प्रसार मॉडल के उपयोग को देखा दाल-ई 2, OpenAI का छवि निर्माण मॉडल जो पिछले महीने प्रकाशित हुआ था।

कई मशीन लर्निंग प्रैक्टिशनर निस्संदेह डिफ्यूजन मॉडल के आंतरिक कामकाज के बारे में उत्सुक हैं, क्योंकि उनकी हालिया सफलता में वृद्धि हुई है।

इस पोस्ट में, हम डिफ्यूजन मॉडल के सैद्धांतिक आधार, उनके डिजाइन, उनके फायदे और बहुत कुछ देखेंगे। चलो जाते रहे।

डिफ्यूजन मॉडल क्या है?

आइए यह पता लगाकर शुरू करें कि इस मॉडल को प्रसार मॉडल क्यों कहा जाता है।

भौतिकी की कक्षाओं में ऊष्मागतिकी से संबंधित शब्द को विसरण कहते हैं। एक प्रणाली संतुलन में नहीं होती है यदि एक स्थान पर सामग्री की एक बड़ी एकाग्रता, जैसे गंध, होती है।

प्रणाली के संतुलन में प्रवेश करने के लिए प्रसार होना चाहिए। गंध के अणु उच्च सांद्रता वाले क्षेत्र से पूरे सिस्टम में फैलते हैं, जिससे सिस्टम एक समान हो जाता है।

विसरण के कारण अंततः सब कुछ सजातीय हो जाता है।

प्रसार मॉडल इस थर्मोडायनामिक गैर-संतुलन स्थिति से प्रेरित होते हैं। प्रसार मॉडल एक मार्कोव श्रृंखला का उपयोग करते हैं, जो चर की एक श्रृंखला है जहां प्रत्येक चर का मूल्य पूर्व घटना की स्थिति पर निर्भर करता है।

एक तस्वीर लेते हुए, हम क्रमिक रूप से आगे के प्रसार चरण में इसमें एक विशेष मात्रा में शोर जोड़ते हैं।

नॉइज़ियर इमेज को स्टोर करने के बाद, हम अतिरिक्त नॉइज़ की शुरुआत करके सीरीज़ में बाद की इमेज बनाने के लिए आगे बढ़ते हैं।

कई बार यह प्रक्रिया की जाती है। इस विधि को कई बार दोहराने से एक शुद्ध शोर चित्र निकलता है।

फिर हम इस अव्यवस्थित छवि से एक चित्र कैसे बना सकते हैं?

प्रसार प्रक्रिया को a . का उपयोग करके उलट दिया जाता है तंत्रिका नेटवर्क. t से t-1 तक की तस्वीर बनाने के लिए समान नेटवर्क और समान वज़न का उपयोग पिछड़े प्रसार प्रक्रिया में किया जाता है।

नेटवर्क को चित्र का अनुमान लगाने देने के बजाय, प्रत्येक चरण पर शोर की भविष्यवाणी करने का प्रयास किया जा सकता है, जिसे छवि से हटाना होगा, ताकि कार्य को और सरल बनाया जा सके।

किसी भी परिदृश्य में, तंत्रिका नेटवर्क डिजाइन डेटा डायमेंशन को बनाए रखने वाले तरीके से चुना जाना चाहिए।

डीप डाइव इन डिफ्यूजन मॉडल

एक प्रसार मॉडल के घटक एक आगे की प्रक्रिया (एक प्रसार प्रक्रिया के रूप में भी जाना जाता है), जिसमें एक डेटाम (अक्सर एक छवि) धीरे-धीरे शोर होता है, और एक रिवर्स प्रक्रिया (जिसे रिवर्स डिफ्यूजन प्रक्रिया भी कहा जाता है), जिसमें शोर होता है लक्ष्य वितरण से एक नमूने में वापस परिवर्तित।

जब शोर का स्तर काफी कम होता है, तो आगे की प्रक्रिया में नमूना श्रृंखला संक्रमण स्थापित करने के लिए सशर्त गाऊसी का उपयोग किया जा सकता है। आगे की प्रक्रिया का एक आसान मानकीकरण इस ज्ञान को मार्कोव धारणा के साथ जोड़कर परिणाम देता है:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 - βtxt−1, βtI)

यहाँ 1 ...।T एक विचरण अनुसूची (या तो सीखा या निश्चित) है जो पर्याप्त रूप से उच्च T के लिए आश्वासन देता है कि xT वस्तुतः एक आइसोट्रोपिक गाऊसी है।

बड़ा टी

विपरीत प्रक्रिया वह है जहां प्रसार मॉडल जादू होता है। मॉडल ताजा डेटा उत्पन्न करने के लिए प्रशिक्षण के दौरान इस प्रसार प्रक्रिया को उलटना सीखता है। मॉडल संयुक्त वितरण को इस प्रकार सीखता है (x0: टी) शुद्ध गाऊसी शोर समीकरण से शुरू होने का परिणाम

(एक्सटी):=एन (एक्सटी, 0, आई)।

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), ( एक्सटी, टी))

जहां गाऊसी संक्रमणों के समय-निर्भर मापदंडों की खोज की जाती है। विशेष रूप से, इस बात पर ध्यान दें कि मार्कोव फॉर्मूलेशन कैसे बताता है कि एक दिया गया रिवर्स डिफ्यूजन ट्रांजिशन वितरण विशेष रूप से पूर्व टाइमस्टेप (या बाद के टाइमस्टेप पर निर्भर करता है, इस पर निर्भर करता है कि आप इसे कैसे देखते हैं):

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

मॉडल प्रशिक्षण

एक रिवर्स मार्कोव मॉडल जो प्रशिक्षण डेटा की संभावना को अधिकतम करता है, एक प्रसार मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है। व्यावहारिक रूप से, प्रशिक्षण नकारात्मक लॉग संभावना पर परिवर्तनशील ऊपरी सीमा को कम करने के समान है।

ई [- लॉग pθ(x0)] ≤ Eq - लॉग pθ(x0:T ) q(x1:T |x0) = Eq - लॉग p(xT ) - X t≥1 लॉग pθ(xt−1|xt) q (xt|xt−1) =: एल

मॉडल

अब हमें यह तय करने की आवश्यकता है कि हमारे लक्ष्य फ़ंक्शन के गणितीय आधार को स्थापित करने के बाद हमारे डिफ्यूजन मॉडल को कैसे निष्पादित किया जाए। आगे की प्रक्रिया के लिए आवश्यक एकमात्र निर्णय भिन्नता अनुसूची का निर्धारण कर रहा है, जिसका मूल्य आमतौर पर प्रक्रिया के दौरान बढ़ता है।

हम रिवर्स प्रक्रिया के लिए गाऊसी वितरण मानकीकरण और मॉडल आर्किटेक्चर का उपयोग करने पर दृढ़ता से विचार करते हैं।

हमारे डिजाइन की एकमात्र शर्त यह है कि इनपुट और आउटपुट दोनों के आयाम समान हों। यह डिफ्यूजन मॉडल द्वारा प्रदान की जाने वाली स्वतंत्रता की भारी मात्रा को रेखांकित करता है।

नीचे, हम इन विकल्पों के बारे में अधिक गहराई में जाएंगे।

आगे की प्रक्रिया

हमें आगे की प्रक्रिया के संबंध में विचरण अनुसूची प्रदान करनी चाहिए। हमने उन्हें विशेष रूप से समय-निर्भर स्थिरांक के रूप में निर्धारित किया है और इस संभावना की अवहेलना की है कि उन्हें सीखा जा सकता है। से एक कालानुक्रमिक अनुसूची

β1 = 10−4 से βT = 0.02.

Lt निश्चित विचरण अनुसूची के कारण सीखने योग्य मापदंडों के हमारे सेट के संबंध में एक स्थिर बन जाता है, जिससे हम चयनित विशिष्ट मूल्यों की परवाह किए बिना प्रशिक्षण के दौरान इसे अनदेखा कर सकते हैं।

रिवर्स प्रक्रिया

अब हम विपरीत प्रक्रिया को परिभाषित करने के लिए आवश्यक निर्णयों पर विचार करते हैं। याद रखें कि कैसे हमने रिवर्स मार्कोव ट्रांज़िशन को गाऊसी के रूप में वर्णित किया:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

अब जब हमने कार्यात्मक प्रकारों की पहचान कर ली है. इस तथ्य के बावजूद कि पैरामीटर करने के लिए और अधिक जटिल तकनीकें हैं, हम बस सेट करते हैं

(xt, t) = σ 2 t I

σ 2 टी = βt

इसे दूसरे तरीके से रखने के लिए, हम बहुभिन्नरूपी गाऊसी को एक ही विचरण के साथ अलग गाऊसी का परिणाम मानते हैं, एक विचरण मान जो समय के साथ उतार-चढ़ाव कर सकता है। ये विचलन अग्रेषण प्रक्रिया विचलन की समय सारिणी से मेल खाने के लिए निर्धारित हैं।

इस नए सूत्रीकरण के परिणामस्वरूप, हमारे पास है:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)

इसका परिणाम नीचे दिखाए गए वैकल्पिक हानि फ़ंक्शन में होता है, जिसे लेखकों ने अधिक सुसंगत प्रशिक्षण और बेहतर परिणाम उत्पन्न करने के लिए पाया:

सरल(θ) := Et,x0, h - ( α¯tx0 + √ 1 - α¯t, t) 2

लेखक प्रसार मॉडल के इस फॉर्मूलेशन और लैंगविन-आधारित स्कोर-मिलान जनरेटिव मॉडल के बीच संबंध भी बनाते हैं। तरंग-आधारित क्वांटम भौतिकी और मैट्रिक्स-आधारित क्वांटम यांत्रिकी के स्वतंत्र और समानांतर विकास के साथ, जिसने एक ही घटना के दो तुलनीय योगों का खुलासा किया, ऐसा प्रतीत होता है कि प्रसार मॉडल और स्कोर-आधारित मॉडल एक ही सिक्के के दो पहलू हो सकते हैं।

नेटवर्क आर्किटेक्चर

इस तथ्य के बावजूद कि हमारे संघनित नुकसान फ़ंक्शन का उद्देश्य मॉडल को प्रशिक्षित करना है Σθ, हमने अभी भी इस मॉडल के आर्किटेक्चर पर निर्णय नहीं लिया है। ध्यान रखें कि मॉडल में समान इनपुट और आउटपुट आयाम होने चाहिए।

इस बाधा को देखते हुए, यह शायद अप्रत्याशित नहीं है कि चित्र प्रसार मॉडल बनाने के लिए यू-नेट जैसे आर्किटेक्चर का अक्सर उपयोग किया जाता है।

नेटवर्क आर्किटेक्चर

निरंतर सशर्त गाऊसी वितरण का उपयोग करते हुए रिवर्स प्रक्रिया के मार्ग में कई बदलाव किए जाते हैं। याद रखें कि रिवर्स प्रक्रिया का लक्ष्य पूर्णांक पिक्सेल मानों से बना चित्र बनाना है। इसलिए सभी पिक्सेल पर प्रत्येक संभावित पिक्सेल मान के लिए असतत (लॉग) संभावना निर्धारित करना आवश्यक है।

यह रिवर्स डिफ्यूजन चेन के अंतिम संक्रमण के लिए एक अलग असतत डिकोडर निर्दिष्ट करके पूरा किया जाता है। एक निश्चित छवि की संभावना का आकलन x0 दी x1।

pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ यदि x = 1 x + 1 255 यदि x < 1 δ−(x) = −∞ यदि x = −1 x − 1 255 यदि x > −1

जहां सुपरस्क्रिप्ट I एक निर्देशांक के निष्कर्षण को दर्शाता है और D डेटा में आयामों की संख्या को दर्शाता है।

इस बिंदु पर उद्देश्य एक विशिष्ट पिक्सेल के लिए प्रत्येक पूर्णांक मान की संभावना को स्थापित करना है, जो समय-भिन्न में उस पिक्सेल के संभावित मानों के वितरण को देखते हुए टी=1.

अंतिम उद्देश्य

वैज्ञानिकों के अनुसार, सबसे बड़ा परिणाम एक निश्चित समय पर एक तस्वीर के शोर घटक की भविष्यवाणी करने से आया है। अंत में, वे निम्नलिखित लक्ष्य को नियोजित करते हैं:

सरल(θ) := Et,x0, h - ( α¯tx0 + √ 1 - α¯t, t) 2

निम्नलिखित छवि में, हमारे प्रसार मॉडल के लिए प्रशिक्षण और नमूनाकरण प्रक्रियाओं को संक्षेप में दर्शाया गया है:

अंतिम उद्देश्य

प्रसार मॉडल के लाभ

जैसा कि पहले ही संकेत दिया गया था, प्रसार मॉडल पर शोध की मात्रा हाल ही में कई गुना बढ़ गई है। डिफ्यूजन मॉडल अब अत्याधुनिक छवि गुणवत्ता प्रदान करते हैं और गैर-संतुलन ऊष्मप्रवैगिकी से प्रेरित हैं।

डिफ्यूजन मॉडल अत्याधुनिक चित्र गुणवत्ता के अलावा कई अन्य लाभ प्रदान करते हैं, जैसे कि प्रतिकूल प्रशिक्षण की आवश्यकता नहीं है।

प्रतिकूल प्रशिक्षण की कमियों को व्यापक रूप से जाना जाता है, इसलिए समकक्ष प्रदर्शन और प्रशिक्षण प्रभावशीलता के साथ गैर-प्रतिकूल विकल्पों को चुनना अक्सर बेहतर होता है।

प्रसार मॉडल प्रशिक्षण प्रभावशीलता के संदर्भ में मापनीयता और समानांतरता के लाभ भी प्रदान करते हैं।

हालांकि डिफ्यूजन मॉडल पतले हवा से प्रतीत होने वाले परिणाम उत्पन्न करते प्रतीत होते हैं, इन परिणामों का आधार कई विचारशील और दिलचस्प गणितीय निर्णयों और सूक्ष्मताओं द्वारा रखा गया है, और उद्योग की सर्वोत्तम प्रथाओं को अभी भी विकसित किया जा रहा है।

निष्कर्ष

अंत में, शोधकर्ता प्रसार संभाव्य मॉडल का उपयोग करते हुए उच्च-गुणवत्ता वाले चित्र संश्लेषण निष्कर्षों का प्रदर्शन करते हैं, जो कि अव्यक्त चर मॉडल का एक वर्ग है जो किसी भी तरह के थर्मोडायनामिक्स के विचारों से प्रेरित नहीं है।

उन्होंने अपने अत्याधुनिक परिणामों और गैर-प्रतिकूल प्रशिक्षण की बदौलत जबरदस्त चीजें हासिल की हैं और अपनी शैशवावस्था को देखते हुए आने वाले वर्षों में और अधिक प्रगति की उम्मीद की जा सकती है।

विशेष रूप से, यह पता चला है कि प्रसार मॉडल उन्नत मॉडल जैसे DALL-E 2 की कार्यक्षमता के लिए महत्वपूर्ण हैं।

यहाँ आप संपूर्ण शोध तक पहुंच सकते हैं।

प्रसार मॉडल का परिचय

डिफ्यूजन मॉडल क्या है?