डिफ्यूजन मॉडल ने की रिलीज के साथ तूफान से दुनिया भर में धूम मचा दी है दल-ई 2, गूगल की छवि, स्थिर प्रसार, तथा मध्य यात्रा, नवाचार को बढ़ावा देना और मशीन सीखने की सीमा को बढ़ाना।
ये मॉडल शब्द संकेतों से लगभग असीमित संख्या में छवियों का उत्पादन कर सकते हैं, जिनमें फोटोरिअलिस्टिक, जादुई, भविष्यवादी, और निश्चित रूप से, सुंदर छवियां शामिल हैं।
ये क्षमताएं फिर से कल्पना करती हैं कि मनुष्यों के लिए सिलिकॉन के साथ इंटरफेस करने का क्या मतलब है, जिससे हमें व्यावहारिक रूप से कोई भी तस्वीर बनाने की क्षमता मिलती है जिसकी हम कल्पना कर सकते हैं।
जैसे-जैसे ये मॉडल विकसित होते हैं या अगला जनरेटिव प्रतिमान होता है, मनुष्य केवल एक विचार के साथ छवियों, फिल्मों और अन्य immersive अनुभवों का उत्पादन करने में सक्षम होंगे।
इस पोस्ट में, हम चर्चा करेंगे प्रसार मॉडल, स्थिर प्रसार, यह कैसे काम करता है, और अन्य बातों के अलावा, एक डिफ्यूजन मॉडल इनपेंटिंग ट्यूटोरियल।
डिफ्यूजन मॉडल क्या है?
मशीन लर्निंग मॉडल जो प्रशिक्षण डेटा से नया डेटा बना सकते हैं उन्हें जनरेटिव मॉडल कहा जाता है। अन्य जनरेटिव मॉडल में फ्लो-आधारित मॉडल, वेरिएबल ऑटोएन्कोडर, और जनरेटिव एडवरसैरियल नेटवर्क (जीएएन) शामिल हैं।
प्रत्येक उत्कृष्ट गुणवत्ता के चित्र उत्पन्न कर सकता है। प्रसार मॉडल शोर जोड़कर प्रशिक्षण डेटा को नुकसान पहुंचाने के बाद इस शोर-जोड़ने की प्रक्रिया को उलट कर डेटा को पुनर्प्राप्त करना सीखते हैं। इसे दूसरे तरीके से रखने के लिए, प्रसार मॉडल शोर से सुसंगत चित्र बनाने में सक्षम हैं।
डिफ्यूजन मॉडल तस्वीरों में शोर का परिचय देकर सीखते हैं, जिसे बाद में मॉडल हटाने में महारत हासिल कर लेता है। यथार्थवादी दृश्यों का उत्पादन करने के लिए, मॉडल तब इस निरूपण तकनीक को यादृच्छिक बीजों पर लागू करता है।
चित्र उत्पादन प्रक्रिया को कंडीशनिंग करके, इन मॉडलों का उपयोग टेक्स्ट-टू-इमेज मार्गदर्शन के संयोजन में किया जा सकता है ताकि अकेले टेक्स्ट से छवियों की लगभग असीमित संख्या उत्पन्न हो सके। मजबूत टेक्स्ट-टू-इमेज क्षमता देने के लिए बीज को CLIP जैसे एम्बेडिंग से इनपुट द्वारा निर्देशित किया जा सकता है।
डिफ्यूजन मॉडल कई तरह के कार्य कर सकते हैं, जिसमें इमेज क्रिएशन, इमेज डीनोइजिंग, इनपेंटिंग, आउटपेंटिंग और बिट डिफ्यूजन शामिल हैं।
अब, स्थिर प्रसार क्या है?
स्टेबल डिफ्यूजन टेक्स्ट-आधारित चित्र निर्माण के लिए मशीन लर्निंग मॉडल है जो किसके द्वारा प्रदान किया जाता है स्थिरता। एआई. यह टेक्स्ट से इमेज जेनरेट करने में सक्षम है।
स्थिर प्रसार के घटक
स्थिर प्रसार एक प्रणाली है जिसमें कई घटक और अवधारणाएँ शामिल हैं। यह कोई अकेला मॉडल नहीं है। जब हम हुड के पीछे जांच करते हैं, तो पहली चीज जो हम देखते हैं वह यह है कि एक टेक्स्ट-समझ घटक है जो टेक्स्ट की जानकारी को संख्यात्मक प्रतिनिधित्व में परिवर्तित करता है जो टेक्स्ट की अवधारणाओं को कैप्चर करता है।
हम इस टेक्स्ट एन्कोडर को ट्रांसफॉर्मर कह सकते हैं भाषा मॉडल (तकनीकी रूप से: एक CLIP मॉडल का टेक्स्ट एन्कोडर)। यह इनपुट टेक्स्ट लेता है और टेक्स्ट में प्रत्येक शब्द/टोकन के लिए पूर्णांक (एक वेक्टर) की एक सूची तैयार करता है। उस डेटा को तब इमेज जेनरेटर को आपूर्ति की जाती है, जो कई घटकों से बना होता है।
छवि जनरेटर में दो चरण होते हैं:
1. छवि सूचना निर्माता
स्थिर प्रसार में प्रमुख घटक यह तत्व है। यह वह जगह है जहां पिछले संस्करणों की तुलना में प्रदर्शन में अधिकांश सुधार किया जाता है।
चित्र डेटा प्रदान करने के लिए यह घटक कई चरणों से गुजरता है। चित्र जानकारी का निर्माता केवल छवि सूचना स्थान (या गुप्त स्थान) के भीतर कार्य करता है।
यह पहले के प्रसार मॉडल की तुलना में तेज है जो इस विशेषता के कारण पिक्सेल स्थान में संचालित होता है। तकनीकी रूप से बोलते हुए, यह घटक शेड्यूलिंग एल्गोरिदम और यूनेट से बना है तंत्रिका नेटवर्क.
इस घटक में होने वाली प्रक्रिया को "प्रसार" कहा जाता है। एक उच्च-गुणवत्ता वाली छवि अंततः चरणों में संसाधित होने वाली जानकारी के परिणामस्वरूप उत्पन्न होती है (अगले घटक, छवि डिकोडर द्वारा)।
2. छवि विकोडक
सूचना निर्माता से प्राप्त डेटा का उपयोग करके, छवि डिकोडर एक चित्र बनाता है। यह ऑपरेशन के समापन पर तैयार पिक्सेल चित्र बनाने के लिए सिर्फ एक बार निष्पादित करता है।
स्थिर प्रसार प्रभावकारी ट्यूटोरियल
पेंटिंग में स्थिर डिफ्यूजन पिक्चर एक छवि के लापता या क्षतिग्रस्त क्षेत्रों को भरने की तकनीक है। चित्र इनपेंटिंग का उद्देश्य इस तथ्य को छिपाना है कि छवि को पुनर्स्थापित कर दिया गया है।
इस तकनीक का उपयोग अक्सर किसी छवि से अवांछित चीजों को खत्म करने या ऐतिहासिक तस्वीरों के क्षतिग्रस्त क्षेत्रों को पुनर्स्थापित करने के लिए किया जाता है। स्टेबल डिफ्यूजन इनपेंटिंग, इनपेंटिंग का एक अपेक्षाकृत हालिया तरीका है जो आशाजनक प्रभाव दे रहा है।
यदि आप स्थिर प्रसार के साथ इनपेंटिंग का प्रयास करना चाहते हैं, तो नीचे दिए गए निर्देशों का पालन करने से आप मौजूदा तस्वीरों को चित्रित करना और संशोधित करना शुरू कर देंगे:
- हगिंगफेस पर जाएं स्थिर प्रसार प्रभाव
- अपनी खुद की छवि अपलोड करें
- अपनी छवि के उस हिस्से को मिटा दें जिसे बदलने की आवश्यकता है।
- यहां अपना संकेत दर्ज करें (आप जो हटा रहे हैं उसके स्थान पर आप क्या जोड़ना चाहते हैं)
- "रन" चुनें
ऊपर के वीडियो में, हम तीन नींबू के साथ एक तस्वीर अपलोड करते हैं और सेब के लिए उनकी अदला-बदली करते हैं। मैं व्यक्तिगत रूप से इसे आपकी अपनी तस्वीरों और संकेतों के साथ आज़माने की सलाह देता हूँ।
निष्कर्ष
सामान्य तौर पर, स्थिर प्रसार इनपेंटिंग नकली छवियों या वीडियो के निर्माण के लिए एक उत्कृष्ट तरीका है जो बेहद वास्तविक प्रतीत होता है। जैसे-जैसे हम नई तकनीकी प्रगति की ओर बढ़ते हैं, तकनीकी प्रगति के रूप में प्रामाणिक और धोखाधड़ी के बीच अंतर करना कठिन और कठिन होता जाएगा।
स्वाहिर
पहली छमाही दूसरी छमाही से पूरी तरह से असंबंधित है। यह वास्तव में अच्छा होता अगर लेखक यह समझाता कि जिस मॉडल के बारे में उसने पहले बताया था, उसके ढांचे में पेंट कैसे काम करता है, अंतर्दृष्टि दे सकता था। लेकिन कोई नहीं! एक यादृच्छिक पाठ एकत्र करने और संसाधित करने के बजाय इसके लिए एक वास्तविक समझ की आवश्यकता होती।