डिफ्यूजन मॉडेलचा परिचय

अनुक्रमणिका[लपवा][दाखवा]

डिफ्यूजन मॉडेल काय आहे?
डिफ्यूजन मॉडेलमध्ये खोलवर जा+-
अंतिम उद्दिष्ट
डिफ्यूजन मॉडेलचे फायदे
निष्कर्ष

अलिकडच्या वर्षांत, "डिफ्यूजन मॉडेल्स" नावाची जनरेटिव्ह मॉडेल्स वाढत्या प्रमाणात लोकप्रिय झाली आहेत आणि चांगल्या कारणास्तव.

2020 आणि 2021 च्या दशकात प्रकाशित झालेल्या काही निवडक महत्त्वाच्या प्रकाशनांबद्दल धन्यवाद, चित्र संश्लेषणावर GAN ला मागे टाकणे यासारखे प्रसार मॉडेल काय सक्षम आहेत हे जगाने पाहिले आहे.

प्रॅक्टिशनर्सनी अलीकडे डिफ्यूजन मॉडेल्सचा वापर पाहिला DALL-E2, OpenAI चे प्रतिमा निर्मिती मॉडेल जे गेल्या महिन्यात प्रकाशित झाले होते.

अनेक मशीन लर्निंग प्रॅक्टिशनर्स त्यांच्या अलीकडील यशामुळे डिफ्यूजन मॉडेल्सच्या अंतर्गत कार्याबद्दल निःसंशयपणे उत्सुक आहेत.

या पोस्टमध्ये, आम्ही डिफ्यूजन मॉडेल्सचे सैद्धांतिक आधार, त्यांची रचना, त्यांचे फायदे आणि बरेच काही पाहू. चल आपण निघुया.

डिफ्यूजन मॉडेल काय आहे?

या मॉडेलला डिफ्यूजन मॉडेल का संबोधले जाते ते शोधून प्रारंभ करूया.

भौतिकशास्त्राच्या वर्गातील थर्मोडायनामिक्सशी संबंधित शब्दाला डिफ्यूजन म्हणतात. एखाद्या ठिकाणी सुगंधासारख्या मोठ्या प्रमाणात सामग्रीची एकाग्रता असल्यास प्रणाली समतोल राखत नाही.

प्रणाली समतोल मध्ये प्रवेश करण्यासाठी प्रसार होणे आवश्यक आहे. सुगंधाचे रेणू उच्च एकाग्रतेच्या प्रदेशातून संपूर्ण प्रणालीमध्ये पसरतात, ज्यामुळे संपूर्ण प्रणाली एकसमान बनते.

प्रसारामुळे सर्व काही शेवटी एकसंध बनते.

डिफ्यूजन मॉडेल या थर्मोडायनामिक गैर-समतोल स्थितीमुळे प्रेरित आहेत. डिफ्यूजन मॉडेल्स मार्कोव्ह चेन वापरतात, जी व्हेरिएबल्सची मालिका असते जिथे प्रत्येक व्हेरिएबलचे मूल्य आधीच्या घटनेच्या स्थितीवर अवलंबून असते.

चित्र काढताना, आम्ही संपूर्ण फॉरवर्ड डिफ्यूजन टप्प्यात त्यामध्ये एका विशिष्ट प्रमाणात आवाज जोडतो.

नॉइझियर इमेज संचयित केल्यानंतर, आम्ही अतिरिक्त आवाज सादर करून मालिकेतील त्यानंतरची प्रतिमा तयार करण्यास पुढे जाऊ.

अनेक वेळा, ही प्रक्रिया केली जाते. ही पद्धत काही वेळा पुनरावृत्ती केल्याने शुद्ध आवाजाचे चित्र दिसून येते.

मग या गोंधळलेल्या प्रतिमेतून आपण चित्र कसे तयार करू शकतो?

a वापरून प्रसार प्रक्रिया उलट केली जाते मज्जासंस्थेसंबंधीचा नेटवर्क. t ते t-1 चित्र तयार करण्यासाठी बॅकवर्ड डिफ्यूजन प्रक्रियेमध्ये समान नेटवर्क आणि समान वजन वापरले जातात.

नेटवर्कला चित्राचा अंदाज लावू देण्याऐवजी, कार्य आणखी सुलभ करण्यासाठी, प्रत्येक टप्प्यावर आवाजाचा अंदाज लावण्याचा प्रयत्न केला जाऊ शकतो, जो प्रतिमेतून काढून टाकावा लागेल.

कोणत्याही परिस्थितीत, द न्यूरल नेटवर्क डिझाइन डेटा डायमेंशनॅलिटी राखेल अशा प्रकारे निवडणे आवश्यक आहे.

डिफ्यूजन मॉडेलमध्ये खोलवर जा

डिफ्यूजन मॉडेलचे घटक एक फॉरवर्ड प्रोसेस (ज्याला डिफ्यूजन प्रक्रिया म्हणूनही ओळखले जाते), ज्यामध्ये डेटाम (बहुतेकदा एक प्रतिमा) हळूहळू आवाज केला जातो आणि उलट प्रक्रिया (रिव्हर्स डिफ्यूजन प्रक्रिया म्हणून देखील ओळखली जाते), ज्यामध्ये आवाज असतो. लक्ष्य वितरणातून परत नमुन्यात रूपांतरित केले.

जेव्हा आवाज पातळी पुरेशी कमी असते, तेव्हा सशर्त गॉसियन्सचा वापर फॉरवर्ड प्रक्रियेत सॅम्पलिंग चेन संक्रमण स्थापित करण्यासाठी केला जाऊ शकतो. मार्कोव्हच्या गृहीतकासह हे ज्ञान जोडल्यामुळे फॉरवर्ड प्रक्रियेचे सोपे पॅरामीटरायझेशन होते:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

येथे 1 ...T हे एक भिन्नता वेळापत्रक आहे (एकतर शिकलेले किंवा निश्चित केलेले) जे पुरेसे उच्च T साठी, xT अक्षरशः एक समस्थानिक गॉशियन आहे.

मोठा टी

उलट प्रक्रिया आहे जिथे प्रसार मॉडेल जादू घडते. नवीन डेटा तयार करण्यासाठी मॉडेल प्रशिक्षणादरम्यान ही प्रसार प्रक्रिया उलट करण्यास शिकते. मॉडेल म्हणून संयुक्त वितरण शिकते (x0:T) शुद्ध गॉसियन ध्वनी समीकरणाने प्रारंभ केल्याचे परिणाम

(xT):=N(xT,0,I).

pθ(x0:T ) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))

जेथे गॉसियन संक्रमणांचे वेळ-आश्रित मापदंड शोधले जातात. विशेषतः, मार्कोव्ह फॉर्म्युलेशनमध्ये असे कसे नमूद केले आहे की दिलेले रिव्हर्स डिफ्यूजन संक्रमण वितरण केवळ आधीच्या टाइमस्टेपवर अवलंबून असते (किंवा त्यानंतरचे टाईमस्टेप, तुम्ही ते कसे पाहता यावर अवलंबून):

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

मॉडेल प्रशिक्षण

एक रिव्हर्स मार्कोव्ह मॉडेल जे प्रशिक्षण डेटाची संभाव्यता वाढवते ते प्रसार मॉडेल प्रशिक्षित करण्यासाठी वापरले जाते. व्यावहारिकदृष्ट्या बोलायचे झाले तर, प्रशिक्षण हे नकारात्मक लॉग संभाव्यतेवरील भिन्नता वरच्या बाउंडला कमी करण्यासाठी समान आहे.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

मॉडेल

आपल्या ध्येय कार्याचे गणितीय आधार स्थापित केल्यानंतर आपले डिफ्यूजन मॉडेल कसे कार्यान्वित करायचे हे आता आपल्याला ठरवावे लागेल. फॉरवर्ड प्रक्रियेसाठी आवश्यक असलेला एकमेव निर्णय म्हणजे व्हेरियंस शेड्यूल निर्धारित करणे, ज्याची मूल्ये प्रक्रियेदरम्यान सामान्यतः वाढतात.

उलट प्रक्रियेसाठी आम्ही गॉसियन वितरण पॅरामीटरायझेशन आणि मॉडेल आर्किटेक्चर वापरण्याचा जोरदार विचार करतो.

आमच्या डिझाइनची एकमेव अट अशी आहे की इनपुट आणि आउटपुट दोन्ही समान परिमाण आहेत. हे डिफ्यूजन मॉडेल्स प्रदान केलेल्या प्रचंड प्रमाणात स्वातंत्र्य अधोरेखित करते.

खाली, आम्ही या पर्यायांबद्दल अधिक खोलात जाऊ.

फॉरवर्ड प्रक्रिया

आम्ही फॉरवर्ड प्रक्रियेच्या संबंधात भिन्नता वेळापत्रक प्रदान केले पाहिजे. आम्ही त्यांना विशेषत: वेळ-आश्रित स्थिरांक म्हणून सेट केले आणि ते शिकले जाऊ शकतात या शक्यतेकडे दुर्लक्ष केले. पासून एक कालक्रमानुसार वेळापत्रक

β1 = 10−4 ते βT = 0.02.

Lt निश्चित भिन्नता शेड्यूलमुळे आमच्या शिकण्यायोग्य पॅरामीटर्सच्या संचाच्या संदर्भात स्थिर बनते, जे निवडलेल्या विशिष्ट मूल्यांकडे दुर्लक्ष करून आम्हाला प्रशिक्षणादरम्यान त्याकडे दुर्लक्ष करू देते.

उलट प्रक्रिया

आम्ही आता उलट प्रक्रिया परिभाषित करण्यासाठी आवश्यक निर्णयांवर जातो. लक्षात ठेवा की आम्ही रिव्हर्स मार्कोव्ह संक्रमणांचे वर्णन गौसियन म्हणून कसे केले:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

आता आम्ही कार्यात्मक प्रकार ओळखले आहेत. पॅरामीटराइज करण्यासाठी अधिक क्लिष्ट तंत्रे असूनही, आम्ही फक्त सेट केले

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

दुसर्‍या मार्गाने सांगायचे तर, आम्ही बहुविविध गॉसियनला समान भिन्नता असलेल्या विभक्त गॉसियनचा परिणाम मानतो, एक भिन्नता मूल्य जे कालांतराने चढ-उतार होऊ शकते. हे विचलन फॉरवर्डिंग प्रक्रियेच्या विचलनाच्या वेळापत्रकाशी जुळण्यासाठी सेट केले आहेत.

या नवीन सूत्रीकरणाचा परिणाम म्हणून, आमच्याकडे आहे:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)

याचा परिणाम खाली दर्शविलेल्या पर्यायी नुकसान कार्यामध्ये होतो, जे लेखकांना अधिक सुसंगत प्रशिक्षण आणि उत्कृष्ट परिणाम निर्माण करण्यासाठी आढळले:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

लेखक डिफ्यूजन मॉडेल्स आणि लॅन्गेविन-आधारित स्कोअर-मॅचिंग जनरेटिव्ह मॉडेल्सच्या या फॉर्म्युलेशनमध्ये कनेक्शन देखील काढतात. वेव्ह-आधारित क्वांटम फिजिक्स आणि मॅट्रिक्स-आधारित क्वांटम मेकॅनिक्सच्या स्वतंत्र आणि समांतर विकासाप्रमाणे, ज्याने समान घटनेची दोन तुलनात्मक सूत्रे प्रकट केली, असे दिसून येते की डिफ्यूजन मॉडेल आणि स्कोअर-आधारित मॉडेल्स एकाच नाण्याच्या दोन बाजू असू शकतात.

नेटवर्क आर्किटेक्चर

हे असूनही आमचे कंडेन्स्ड लॉस फंक्शन मॉडेलला प्रशिक्षित करण्याचे उद्दिष्ट आहे Σθ, आम्ही अद्याप या मॉडेलच्या आर्किटेक्चरवर निर्णय घेतलेला नाही. लक्षात ठेवा की मॉडेलमध्ये फक्त समान इनपुट आणि आउटपुट परिमाण असणे आवश्यक आहे.

ही मर्यादा लक्षात घेता, चित्र प्रसार मॉडेल तयार करण्यासाठी U-Net सारखी आर्किटेक्चर्स वारंवार वापरली जातात हे कदाचित अनपेक्षित नाही.

नेटवर्क आर्किटेक्चर

सतत सशर्त गॉसियन वितरण वापरताना उलट प्रक्रियेच्या मार्गावर असंख्य बदल केले जातात. लक्षात ठेवा की उलट प्रक्रियेचे लक्ष्य पूर्णांक पिक्सेल मूल्यांनी बनलेले चित्र तयार करणे आहे. सर्व पिक्सेलपेक्षा प्रत्येक संभाव्य पिक्सेल मूल्यासाठी स्वतंत्र (लॉग) शक्यता निश्चित करणे आवश्यक आहे.

हे रिव्हर्स डिफ्यूजन साखळीच्या शेवटच्या संक्रमणास स्वतंत्र डिकोडर नियुक्त करून पूर्ण केले जाते. एका विशिष्ट प्रतिमेच्या संभाव्यतेचा अंदाज लावणे x0 दिलेले x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ जर x = 1 x + 1 255 जर x < 1 δ−(x) = −∞ जर x = −1 x − 1 255 असेल तर x > −1

जिथे सुपरस्क्रिप्ट I एक निर्देशांक काढते आणि D डेटामधील परिमाणांची संख्या दर्शवते.

या टप्प्यावरचा उद्देश विशिष्ट पिक्सेलसाठी प्रत्येक पूर्णांक मूल्याची शक्यता स्थापित करणे हा आहे की त्या पिक्सेलच्या संभाव्य मूल्यांचे वेळेनुसार वितरण केले जाते. t=1.

अंतिम उद्दिष्ट

शास्त्रज्ञांच्या म्हणण्यानुसार सर्वात मोठे परिणाम एखाद्या विशिष्ट वेळेच्या टप्प्यावर चित्राच्या आवाजाच्या घटकाचा अंदाज लावल्याने आले. सरतेशेवटी, ते खालील ध्येय वापरतात:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

खालील प्रतिमेमध्ये, आमच्या प्रसार मॉडेलसाठी प्रशिक्षण आणि नमुना प्रक्रिया संक्षिप्तपणे चित्रित केल्या आहेत:

अंतिम उद्दिष्ट

डिफ्यूजन मॉडेलचे फायदे

आधीच सूचित केल्याप्रमाणे, प्रसार मॉडेलवरील संशोधनाचे प्रमाण अलीकडेच वाढले आहे. डिफ्यूजन मॉडेल्स आता अत्याधुनिक प्रतिमा गुणवत्ता प्रदान करतात आणि समतोल नसलेल्या थर्मोडायनामिक्सद्वारे प्रेरित आहेत.

डिफ्यूजन मॉडेल्स अत्याधुनिक चित्र गुणवत्तेव्यतिरिक्त इतर विविध फायदे देतात, जसे की प्रतिकूल प्रशिक्षणाची आवश्यकता नसते.

विरोधी प्रशिक्षणातील तोटे सर्वत्र ज्ञात आहेत, म्हणूनच समतुल्य कामगिरी आणि प्रशिक्षण प्रभावीतेसह गैर-विरोधक पर्याय निवडणे अधिक श्रेयस्कर आहे.

डिफ्यूजन मॉडेल्स प्रशिक्षण परिणामकारकतेच्या दृष्टीने स्केलेबिलिटी आणि समांतरतेचे फायदे देखील प्रदान करतात.

जरी डिफ्यूजन मॉडेल्स पातळ हवेच्या बाहेर परिणाम निर्माण करतात असे दिसत असले तरी, या निकालांचा आधार अनेक विचारशील आणि मनोरंजक गणिती निर्णय आणि बारकावे यांनी घातला आहे आणि उद्योगातील सर्वोत्तम पद्धती अजूनही विकसित केल्या जात आहेत.

निष्कर्ष

शेवटी, संशोधक उच्च-गुणवत्तेचे चित्र संश्लेषण निष्कर्ष प्रसरण संभाव्य मॉडेल्सचा वापर करून प्रदर्शित करतात, नॉन-इक्लिब्रिअम थर्मोडायनामिक्सच्या कल्पनांद्वारे प्रेरित सुप्त व्हेरिएबल मॉडेल्सचा एक वर्ग.

त्यांच्या अत्याधुनिक परिणामांमुळे आणि विरोधी नसलेल्या प्रशिक्षणामुळे त्यांनी जबरदस्त गोष्टी साध्य केल्या आहेत आणि त्यांचे बाल्यावस्था पाहता, पुढील वर्षांत आणखी प्रगती अपेक्षित आहे.

विशेषतः, असे आढळून आले आहे की DALL-E 2 सारख्या प्रगत मॉडेल्सच्या कार्यक्षमतेसाठी डिफ्यूजन मॉडेल्स महत्त्वपूर्ण आहेत.

येथे तुम्ही संपूर्ण संशोधनात प्रवेश करू शकता.

डिफ्यूजन मॉडेलचा परिचय

डिफ्यूजन मॉडेल काय आहे?