नौसिखियों के लिए ड्रीमबूथ ट्यूटोरियल

विषय - सूची[छिपाना][प्रदर्शन]

ड्रीमबूथ क्या है?
विशेषताएं
आवेदन+-
ड्रीमबूथ ट्यूटोरियल+-
ड्रीमबूथ सीमाएं
निष्कर्ष

बड़े टेक्स्ट-टू-इमेज मॉडल ने दिए गए टेक्स्ट प्रॉम्प्ट से उच्च-गुणवत्ता और विविध चित्र संश्लेषण का निर्माण करके एआई के विकास में महत्वपूर्ण प्रगति की है।

ये मॉडल विभिन्न सेटिंग्स में विषयों के अद्वितीय प्रतिनिधित्व को संश्लेषित करने में या किसी दिए गए संदर्भ सेट में विषयों की उपस्थिति को दोहराने में असमर्थ हैं।

OpenAI की DALL.E2 या StabilityAI जैसी नई जारी की गई प्रौद्योगिकियां स्थिर प्रसार और मिडजर्नी पहले से ही तूफान से इंटरनेट ले रहे हैं। अब परिणामों को अनुकूलित करने का समय आ गया है। फिर भी कैसे?

Google DreamBooth AI आ गया है।

ड्रीमबुथ में किसी चित्र के विषय को पहचानने, उसके मूल संदर्भ से विखंडित करने और फिर उसे एक नए वांछित संदर्भ में सटीक रूप से संश्लेषित करने की क्षमता है। इसके अतिरिक्त, इसका उपयोग वर्तमान AI चित्र जनरेटर के साथ किया जा सकता है।

इस लेख में, हम DreamBooth, इसके उपयोग, इसके ट्यूटोरियल, इसकी सीमाओं और बहुत कुछ पर गहराई से नज़र डालेंगे।

ड्रीमबूथ क्या है?

ड्रीम बूथ, Google द्वारा एक बिल्कुल नया टेक्स्ट-टू-इमेज प्रसार मॉडल प्रस्तुत किया गया था। विभिन्न सेटिंग्स में उपयोगकर्ता के चयनित विषय की तस्वीरों की एक विस्तृत श्रृंखला उत्पन्न करने के लिए एक लिखित संकेत का उपयोग Google DreamBooth AI द्वारा मार्गदर्शन के रूप में किया जा सकता है।

बोस्टन विश्वविद्यालय और Google के एक शोध समूह ने टेक्स्ट-टू-इमेज मॉडल को बदलने के लिए एक अत्याधुनिक तकनीक, ड्रीमबुथ विकसित की, जो व्यापक पूर्व-प्रशिक्षण से गुजरी है।

समग्र अवधारणा बल्कि सीधी है: वे भाषा-दृष्टि शब्दकोश को बढ़ाना चाहते हैं जैसे कि असामान्य टोकन आईडी कस्टम विषयों से जुड़े होते हैं जिन्हें उपयोगकर्ता परिभाषित कर सकते हैं।

मॉडल का मुख्य लक्ष्य उपयोगकर्ताओं को इंटरनेट से जोड़ना है टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल उन्हें वे संसाधन देकर, जिनकी उन्हें अपनी चुनी हुई विषय-वस्तु के दृष्टांतों का फ़ोटो-यथार्थवादी निरूपण करने के लिए आवश्यकता होती है।

नतीजतन, यह तकनीक कई स्थितियों में चुनौतियों का सारांश देने के लिए अच्छी तरह से काम करती है।

Google का ड्रीमबुथ पिछले टेक्स्ट-टू-इमेज टूल्स से अलग है, जैसे दाल-ई 2, स्थिर प्रसार, तथा मध्य यात्रा, इसमें यह उपयोगकर्ताओं को टेक्स्ट-आधारित इनपुट का उपयोग करके प्रसार मॉडल में हेरफेर करने से पहले विषय छवि पर अधिक नियंत्रण देता है।

विशेषताएं

ड्रीमबुथ एआई 3-5 छवियों के साथ टेक्स्ट-टू-इमेज मॉडल में सुधार कर सकता है।
ड्रीमबूथ एआई के साथ मूल फोटोरिअलिस्टिक तस्वीरें बनाई जा सकती हैं।
इसके अलावा, ड्रीमबूथ एआई कई कोणों से किसी विषय की तस्वीरें बना सकता है।

आवेदन

कला प्रस्तुतियाँ

यह कार्य विशेष रूप से शैली हस्तांतरण से भिन्न है, जो मूल दृश्य में किसी अन्य छवि की शैली को शामिल करते हुए स्रोत दृश्य के शब्दार्थ को बनाए रखता है।

कला प्रतिपादन

रचनात्मक दृष्टिकोण के आधार पर, एआई पहचान और विषय उदाहरण की बारीकियों को बनाए रखते हुए महत्वपूर्ण दृश्य परिवर्तन को पूरा कर सकता है।

संपत्ति संशोधन

विषय उदाहरण की विशेषताओं को DreamBooth AI द्वारा संशोधित किया जा सकता है।

संपत्ति संशोधन

गौण

जनरेशन मॉडल से पहले की मजबूत संरचना वह है जो ड्रीमबूथ एआई की वस्तुओं को सजाने की क्षमता को इतना दिलचस्प बनाती है।

गौण

पुनर्संदर्भीकरण

ड्रीमबूथ एआई एक प्रशिक्षित मॉडल को एक वाक्य देकर एक निश्चित विषय उदाहरण के लिए विशिष्ट छवियों का उत्पादन कर सकता है जिसमें अद्वितीय पहचानकर्ता और वर्ग संज्ञा शामिल है।

पुनर्संदर्भीकरण

यह परिवेश को बदलने के बजाय अद्वितीय, पहले अनसुनी मुद्राओं, अभिव्यक्तियों और दृश्य संरचना में विषय उत्पन्न कर सकता है। यथार्थवादी प्रतिबिंब और छाया, साथ ही विषय और आसपास की वस्तुओं के बीच बातचीत।

ड्रीमबूथ ट्यूटोरियल

इस ट्यूटोरियल में, हम अनुसरण करेंगे Google सहयोग नोटबुक, और मैं आपको इसके माध्यम से चलाऊंगा, जिससे आप इसे समझेंगे और इसे अपने आप उपयोग करेंगे।

जीपीयू की स्थापना और पुस्तकालय स्थापित करना

यह पता लगाना कि जीपीयू और वीआरएएम किस प्रकार उपलब्ध हैं, पहला कदम है। कुछ आवश्यकताएँ और निर्भरताएँ स्थापित करना भी आवश्यक है। बस प्ले बटन दबाएं, फिर इसके खत्म होने का इंतजार करें।

जीपीयू की स्थापना और पुस्तकालय स्थापित करना

हगिंगफेस पर एक अकाउंट बनाएं और एक टोकन जेनरेट करें

अगला कदम हगिंगफेस खाते के लिए पंजीकरण करना है। जब आप समाप्त कर लें, तो ऊपरी दाएँ कोने में सेटिंग पर क्लिक करें। आप अगले पेज पर पहुंच जाएंगे।

हगिंग फेस टोकन

यहां से अनुरोध के अनुसार टोकन और नाम बनाएं। टोकन को नीचे दिए गए सेल में Google सहयोग में कॉपी और पेस्ट किया जाना चाहिए।

Google Colab में टोकन

एक्सफॉर्मर्स इंस्टॉल करें

इस चरण में, आप रनटाइम पर क्लिक करके xformers को स्थापित करने के लिए केवल प्ले बटन दबा सकते हैं।

एक्सफॉर्मर्स स्थापित करें

ड्राइव से कनेक्ट करें

अब, आपको बस इस सेल को google ड्राइव से कनेक्ट करने के लिए चलाना है।

ड्राइव से कनेक्ट करें

संकेत दर्ज करें

अगले सेल में, आपको बस प्रॉम्प्ट दर्ज करना है।

संकेत दर्ज करें

चित्र अपलोड हो रहे हैं

इस चरण में, आपको बस उन तस्वीरों को अपलोड करना है जिन्हें आप प्रशिक्षित करना चाहते हैं।

इस सेल में आप अपनी इमेज अपलोड कर सकते हैं

ट्रेन एआई मॉडल

यह सबसे महत्वपूर्ण चरण है, क्योंकि आप अपनी सभी सबमिट की गई संदर्भ तस्वीरों के आधार पर एक नए एआई मॉडल को प्रशिक्षित करने के लिए ड्रीमबूथ का उपयोग करेंगे। आपको अपना ध्यान दो इनपुट क्षेत्रों तक सीमित रखना चाहिए। "-इंस्टेंस प्रॉम्प्ट" पहला पैरामीटर है। आपको यहां एक अत्यधिक विशिष्ट नाम प्रदान करना होगा।

'-अवधारणा सूची' तर्क दूसरा महत्वपूर्ण इनपुट क्षेत्र है। इसे 'प्रॉम्प्ट बदलें' अनुभाग में उपयोग किए गए से मिलान करने के लिए पुनर्नामित किया जाना चाहिए।

प्रशिक्षण एआई मॉडल

एआई छवियां उत्पन्न करें

इस स्तर पर AI चित्र बनाए जाएंगे, जहां आप टेक्स्ट निर्देश इनपुट कर सकते हैं।

एआई छवियां उत्पन्न करें

ड्रीमबूथ सीमाएं

कमांड प्रॉम्प्ट विषय में उच्च स्तर के विवरण के साथ पुनरावृत्ति करने में बाधा बन जाता है। ड्रीमबुथ विषय के संदर्भ को बदल सकता है, लेकिन अगर मॉडल विषय को ही बदलना चाहता है, तो फ्रेम के साथ समस्याएं हैं।
एक और मुद्दा आउटपुट पिक्चर को इनपुट इमेज से ओवरफिट कर रहा है। यदि पर्याप्त चित्र उपलब्ध नहीं हैं, तो विषय पर विचार नहीं किया जा सकता है या सबमिट की गई छवियों के संदर्भ में मिश्रित किया जा सकता है। जब किसी विषम पीढ़ी का प्रसंग पूछा जाता है तो वही होता है।

निष्कर्ष

एकल टेक्स्ट इनपुट से आउटपुट उत्पन्न करने के लिए, टेक्स्ट-टू-इमेज मॉडल के बड़े पैमाने पर लाखों पैरामीटर और लाइब्रेरी की आवश्यकता होती है।

ड्रीमबुथ पाठ्य पृष्ठभूमि के साथ केवल तीन से पांच विषय तस्वीरों के इनपुट की आवश्यकता के द्वारा उपभोक्ताओं के लिए सामग्री अधिग्रहण और उपयोग को सरल बनाता है।

शुरुआती के लिए ड्रीमबूथ ट्यूटोरियल

ड्रीमबूथ क्या है?

विशेषताएं