अलिकडच्या वर्षांत, "डिफ्यूजन मॉडेल्स" नावाची जनरेटिव्ह मॉडेल्स वाढत्या प्रमाणात लोकप्रिय झाली आहेत आणि चांगल्या कारणास्तव.
2020 आणि 2021 च्या दशकात प्रकाशित झालेल्या काही निवडक महत्त्वाच्या प्रकाशनांबद्दल धन्यवाद, चित्र संश्लेषणावर GAN ला मागे टाकणे यासारखे प्रसार मॉडेल काय सक्षम आहेत हे जगाने पाहिले आहे.
प्रॅक्टिशनर्सनी अलीकडे डिफ्यूजन मॉडेल्सचा वापर पाहिला DALL-E2, OpenAI चे प्रतिमा निर्मिती मॉडेल जे गेल्या महिन्यात प्रकाशित झाले होते.
अनेक मशीन लर्निंग प्रॅक्टिशनर्स त्यांच्या अलीकडील यशामुळे डिफ्यूजन मॉडेल्सच्या अंतर्गत कार्याबद्दल निःसंशयपणे उत्सुक आहेत.
या पोस्टमध्ये, आम्ही डिफ्यूजन मॉडेल्सचे सैद्धांतिक आधार, त्यांची रचना, त्यांचे फायदे आणि बरेच काही पाहू. चल आपण निघुया.
डिफ्यूजन मॉडेल काय आहे?
या मॉडेलला डिफ्यूजन मॉडेल का संबोधले जाते ते शोधून प्रारंभ करूया.
भौतिकशास्त्राच्या वर्गातील थर्मोडायनामिक्सशी संबंधित शब्दाला डिफ्यूजन म्हणतात. एखाद्या ठिकाणी सुगंधासारख्या मोठ्या प्रमाणात सामग्रीची एकाग्रता असल्यास प्रणाली समतोल राखत नाही.
प्रणाली समतोल मध्ये प्रवेश करण्यासाठी प्रसार होणे आवश्यक आहे. सुगंधाचे रेणू उच्च एकाग्रतेच्या प्रदेशातून संपूर्ण प्रणालीमध्ये पसरतात, ज्यामुळे संपूर्ण प्रणाली एकसमान बनते.
प्रसारामुळे सर्व काही शेवटी एकसंध बनते.
डिफ्यूजन मॉडेल या थर्मोडायनामिक गैर-समतोल स्थितीमुळे प्रेरित आहेत. डिफ्यूजन मॉडेल्स मार्कोव्ह चेन वापरतात, जी व्हेरिएबल्सची मालिका असते जिथे प्रत्येक व्हेरिएबलचे मूल्य आधीच्या घटनेच्या स्थितीवर अवलंबून असते.
चित्र काढताना, आम्ही संपूर्ण फॉरवर्ड डिफ्यूजन टप्प्यात त्यामध्ये एका विशिष्ट प्रमाणात आवाज जोडतो.
नॉइझियर इमेज संचयित केल्यानंतर, आम्ही अतिरिक्त आवाज सादर करून मालिकेतील त्यानंतरची प्रतिमा तयार करण्यास पुढे जाऊ.
अनेक वेळा, ही प्रक्रिया केली जाते. ही पद्धत काही वेळा पुनरावृत्ती केल्याने शुद्ध आवाजाचे चित्र दिसून येते.
मग या गोंधळलेल्या प्रतिमेतून आपण चित्र कसे तयार करू शकतो?
a वापरून प्रसार प्रक्रिया उलट केली जाते मज्जासंस्थेसंबंधीचा नेटवर्क. t ते t-1 चित्र तयार करण्यासाठी बॅकवर्ड डिफ्यूजन प्रक्रियेमध्ये समान नेटवर्क आणि समान वजन वापरले जातात.
नेटवर्कला चित्राचा अंदाज लावू देण्याऐवजी, कार्य आणखी सुलभ करण्यासाठी, प्रत्येक टप्प्यावर आवाजाचा अंदाज लावण्याचा प्रयत्न केला जाऊ शकतो, जो प्रतिमेतून काढून टाकावा लागेल.
कोणत्याही परिस्थितीत, द न्यूरल नेटवर्क डिझाइन डेटा डायमेंशनॅलिटी राखेल अशा प्रकारे निवडणे आवश्यक आहे.
डिफ्यूजन मॉडेलमध्ये खोलवर जा
डिफ्यूजन मॉडेलचे घटक एक फॉरवर्ड प्रोसेस (ज्याला डिफ्यूजन प्रक्रिया म्हणूनही ओळखले जाते), ज्यामध्ये डेटाम (बहुतेकदा एक प्रतिमा) हळूहळू आवाज केला जातो आणि उलट प्रक्रिया (रिव्हर्स डिफ्यूजन प्रक्रिया म्हणून देखील ओळखली जाते), ज्यामध्ये आवाज असतो. लक्ष्य वितरणातून परत नमुन्यात रूपांतरित केले.
जेव्हा आवाज पातळी पुरेशी कमी असते, तेव्हा सशर्त गॉसियन्सचा वापर फॉरवर्ड प्रक्रियेत सॅम्पलिंग चेन संक्रमण स्थापित करण्यासाठी केला जाऊ शकतो. मार्कोव्हच्या गृहीतकासह हे ज्ञान जोडल्यामुळे फॉरवर्ड प्रक्रियेचे सोपे पॅरामीटरायझेशन होते:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
येथे 1 ...T हे एक भिन्नता वेळापत्रक आहे (एकतर शिकलेले किंवा निश्चित केलेले) जे पुरेसे उच्च T साठी, xT अक्षरशः एक समस्थानिक गॉशियन आहे.
उलट प्रक्रिया आहे जिथे प्रसार मॉडेल जादू घडते. नवीन डेटा तयार करण्यासाठी मॉडेल प्रशिक्षणादरम्यान ही प्रसार प्रक्रिया उलट करण्यास शिकते. मॉडेल म्हणून संयुक्त वितरण शिकते (x0:T) शुद्ध गॉसियन ध्वनी समीकरणाने प्रारंभ केल्याचे परिणाम
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
जेथे गॉसियन संक्रमणांचे वेळ-आश्रित मापदंड शोधले जातात. विशेषतः, मार्कोव्ह फॉर्म्युलेशनमध्ये असे कसे नमूद केले आहे की दिलेले रिव्हर्स डिफ्यूजन संक्रमण वितरण केवळ आधीच्या टाइमस्टेपवर अवलंबून असते (किंवा त्यानंतरचे टाईमस्टेप, तुम्ही ते कसे पाहता यावर अवलंबून):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
मॉडेल प्रशिक्षण
एक रिव्हर्स मार्कोव्ह मॉडेल जे प्रशिक्षण डेटाची संभाव्यता वाढवते ते प्रसार मॉडेल प्रशिक्षित करण्यासाठी वापरले जाते. व्यावहारिकदृष्ट्या बोलायचे झाले तर, प्रशिक्षण हे नकारात्मक लॉग संभाव्यतेवरील भिन्नता वरच्या बाउंडला कमी करण्यासाठी समान आहे.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
मॉडेल
आपल्या ध्येय कार्याचे गणितीय आधार स्थापित केल्यानंतर आपले डिफ्यूजन मॉडेल कसे कार्यान्वित करायचे हे आता आपल्याला ठरवावे लागेल. फॉरवर्ड प्रक्रियेसाठी आवश्यक असलेला एकमेव निर्णय म्हणजे व्हेरियंस शेड्यूल निर्धारित करणे, ज्याची मूल्ये प्रक्रियेदरम्यान सामान्यतः वाढतात.
उलट प्रक्रियेसाठी आम्ही गॉसियन वितरण पॅरामीटरायझेशन आणि मॉडेल आर्किटेक्चर वापरण्याचा जोरदार विचार करतो.
आमच्या डिझाइनची एकमेव अट अशी आहे की इनपुट आणि आउटपुट दोन्ही समान परिमाण आहेत. हे डिफ्यूजन मॉडेल्स प्रदान केलेल्या प्रचंड प्रमाणात स्वातंत्र्य अधोरेखित करते.
खाली, आम्ही या पर्यायांबद्दल अधिक खोलात जाऊ.
फॉरवर्ड प्रक्रिया
आम्ही फॉरवर्ड प्रक्रियेच्या संबंधात भिन्नता वेळापत्रक प्रदान केले पाहिजे. आम्ही त्यांना विशेषत: वेळ-आश्रित स्थिरांक म्हणून सेट केले आणि ते शिकले जाऊ शकतात या शक्यतेकडे दुर्लक्ष केले. पासून एक कालक्रमानुसार वेळापत्रक
β1 = 10−4 ते βT = 0.02.
Lt निश्चित भिन्नता शेड्यूलमुळे आमच्या शिकण्यायोग्य पॅरामीटर्सच्या संचाच्या संदर्भात स्थिर बनते, जे निवडलेल्या विशिष्ट मूल्यांकडे दुर्लक्ष करून आम्हाला प्रशिक्षणादरम्यान त्याकडे दुर्लक्ष करू देते.
उलट प्रक्रिया
आम्ही आता उलट प्रक्रिया परिभाषित करण्यासाठी आवश्यक निर्णयांवर जातो. लक्षात ठेवा की आम्ही रिव्हर्स मार्कोव्ह संक्रमणांचे वर्णन गौसियन म्हणून कसे केले:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
आता आम्ही कार्यात्मक प्रकार ओळखले आहेत. पॅरामीटराइज करण्यासाठी अधिक क्लिष्ट तंत्रे असूनही, आम्ही फक्त सेट केले
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
दुसर्या मार्गाने सांगायचे तर, आम्ही बहुविविध गॉसियनला समान भिन्नता असलेल्या विभक्त गॉसियनचा परिणाम मानतो, एक भिन्नता मूल्य जे कालांतराने चढ-उतार होऊ शकते. हे विचलन फॉरवर्डिंग प्रक्रियेच्या विचलनाच्या वेळापत्रकाशी जुळण्यासाठी सेट केले आहेत.
या नवीन सूत्रीकरणाचा परिणाम म्हणून, आमच्याकडे आहे:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
याचा परिणाम खाली दर्शविलेल्या पर्यायी नुकसान कार्यामध्ये होतो, जे लेखकांना अधिक सुसंगत प्रशिक्षण आणि उत्कृष्ट परिणाम निर्माण करण्यासाठी आढळले:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
लेखक डिफ्यूजन मॉडेल्स आणि लॅन्गेविन-आधारित स्कोअर-मॅचिंग जनरेटिव्ह मॉडेल्सच्या या फॉर्म्युलेशनमध्ये कनेक्शन देखील काढतात. वेव्ह-आधारित क्वांटम फिजिक्स आणि मॅट्रिक्स-आधारित क्वांटम मेकॅनिक्सच्या स्वतंत्र आणि समांतर विकासाप्रमाणे, ज्याने समान घटनेची दोन तुलनात्मक सूत्रे प्रकट केली, असे दिसून येते की डिफ्यूजन मॉडेल आणि स्कोअर-आधारित मॉडेल्स एकाच नाण्याच्या दोन बाजू असू शकतात.
नेटवर्क आर्किटेक्चर
हे असूनही आमचे कंडेन्स्ड लॉस फंक्शन मॉडेलला प्रशिक्षित करण्याचे उद्दिष्ट आहे Σθ, आम्ही अद्याप या मॉडेलच्या आर्किटेक्चरवर निर्णय घेतलेला नाही. लक्षात ठेवा की मॉडेलमध्ये फक्त समान इनपुट आणि आउटपुट परिमाण असणे आवश्यक आहे.
ही मर्यादा लक्षात घेता, चित्र प्रसार मॉडेल तयार करण्यासाठी U-Net सारखी आर्किटेक्चर्स वारंवार वापरली जातात हे कदाचित अनपेक्षित नाही.
सतत सशर्त गॉसियन वितरण वापरताना उलट प्रक्रियेच्या मार्गावर असंख्य बदल केले जातात. लक्षात ठेवा की उलट प्रक्रियेचे लक्ष्य पूर्णांक पिक्सेल मूल्यांनी बनलेले चित्र तयार करणे आहे. सर्व पिक्सेलपेक्षा प्रत्येक संभाव्य पिक्सेल मूल्यासाठी स्वतंत्र (लॉग) शक्यता निश्चित करणे आवश्यक आहे.
हे रिव्हर्स डिफ्यूजन साखळीच्या शेवटच्या संक्रमणास स्वतंत्र डिकोडर नियुक्त करून पूर्ण केले जाते. एका विशिष्ट प्रतिमेच्या संभाव्यतेचा अंदाज लावणे x0 दिलेले x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ जर x = 1 x + 1 255 जर x < 1 δ−(x) = −∞ जर x = −1 x − 1 255 असेल तर x > −1
जिथे सुपरस्क्रिप्ट I एक निर्देशांक काढते आणि D डेटामधील परिमाणांची संख्या दर्शवते.
या टप्प्यावरचा उद्देश विशिष्ट पिक्सेलसाठी प्रत्येक पूर्णांक मूल्याची शक्यता स्थापित करणे हा आहे की त्या पिक्सेलच्या संभाव्य मूल्यांचे वेळेनुसार वितरण केले जाते. t=1.
अंतिम उद्दिष्ट
शास्त्रज्ञांच्या म्हणण्यानुसार सर्वात मोठे परिणाम एखाद्या विशिष्ट वेळेच्या टप्प्यावर चित्राच्या आवाजाच्या घटकाचा अंदाज लावल्याने आले. सरतेशेवटी, ते खालील ध्येय वापरतात:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
खालील प्रतिमेमध्ये, आमच्या प्रसार मॉडेलसाठी प्रशिक्षण आणि नमुना प्रक्रिया संक्षिप्तपणे चित्रित केल्या आहेत:
डिफ्यूजन मॉडेलचे फायदे
आधीच सूचित केल्याप्रमाणे, प्रसार मॉडेलवरील संशोधनाचे प्रमाण अलीकडेच वाढले आहे. डिफ्यूजन मॉडेल्स आता अत्याधुनिक प्रतिमा गुणवत्ता प्रदान करतात आणि समतोल नसलेल्या थर्मोडायनामिक्सद्वारे प्रेरित आहेत.
डिफ्यूजन मॉडेल्स अत्याधुनिक चित्र गुणवत्तेव्यतिरिक्त इतर विविध फायदे देतात, जसे की प्रतिकूल प्रशिक्षणाची आवश्यकता नसते.
विरोधी प्रशिक्षणातील तोटे सर्वत्र ज्ञात आहेत, म्हणूनच समतुल्य कामगिरी आणि प्रशिक्षण प्रभावीतेसह गैर-विरोधक पर्याय निवडणे अधिक श्रेयस्कर आहे.
डिफ्यूजन मॉडेल्स प्रशिक्षण परिणामकारकतेच्या दृष्टीने स्केलेबिलिटी आणि समांतरतेचे फायदे देखील प्रदान करतात.
जरी डिफ्यूजन मॉडेल्स पातळ हवेच्या बाहेर परिणाम निर्माण करतात असे दिसत असले तरी, या निकालांचा आधार अनेक विचारशील आणि मनोरंजक गणिती निर्णय आणि बारकावे यांनी घातला आहे आणि उद्योगातील सर्वोत्तम पद्धती अजूनही विकसित केल्या जात आहेत.
निष्कर्ष
शेवटी, संशोधक उच्च-गुणवत्तेचे चित्र संश्लेषण निष्कर्ष प्रसरण संभाव्य मॉडेल्सचा वापर करून प्रदर्शित करतात, नॉन-इक्लिब्रिअम थर्मोडायनामिक्सच्या कल्पनांद्वारे प्रेरित सुप्त व्हेरिएबल मॉडेल्सचा एक वर्ग.
त्यांच्या अत्याधुनिक परिणामांमुळे आणि विरोधी नसलेल्या प्रशिक्षणामुळे त्यांनी जबरदस्त गोष्टी साध्य केल्या आहेत आणि त्यांचे बाल्यावस्था पाहता, पुढील वर्षांत आणखी प्रगती अपेक्षित आहे.
विशेषतः, असे आढळून आले आहे की DALL-E 2 सारख्या प्रगत मॉडेल्सच्या कार्यक्षमतेसाठी डिफ्यूजन मॉडेल्स महत्त्वपूर्ण आहेत.
येथे तुम्ही संपूर्ण संशोधनात प्रवेश करू शकता.
प्रत्युत्तर द्या