नवशिक्यांसाठी ड्रीमबूथ ट्यूटोरियल

अनुक्रमणिका[लपवा][दाखवा]

ड्रीमबूथ म्हणजे काय?
वैशिष्ट्ये
अर्ज+-
ड्रीमबूथ ट्यूटोरियल+-
ड्रीमबूथ मर्यादा
निष्कर्ष

मोठ्या मजकूर-ते-प्रतिमा मॉडेल्सने दिलेल्या मजकूर प्रॉम्प्टमधून उच्च-गुणवत्तेचे आणि वैविध्यपूर्ण चित्र संश्लेषण तयार करून AI च्या विकासामध्ये लक्षणीय प्रगती केली आहे.

हे मॉडेल विविध सेटिंग्जमधील विषयांचे अद्वितीय प्रतिनिधित्व संश्लेषित करण्यात किंवा दिलेल्या संदर्भ संचामध्ये विषयांच्या स्वरूपाची प्रतिकृती तयार करण्यात अक्षम आहेत.

OpenAI चे DALL.E2 किंवा StabilityAI सारखे नवीन रिलीझ झालेले तंत्रज्ञान स्थिर प्रसार आणि मिडजर्नी आधीच वादळाने इंटरनेट घेत आहेत. आता निकाल सानुकूलित करण्याची वेळ आली आहे. तरीही कसे?

Google DreamBooth AI आले आहे.

ड्रीमबूथमध्ये चित्राचा विषय ओळखण्याची, त्याच्या मूळ संदर्भातून त्याची रचना करण्याची आणि नंतर नवीन इच्छित संदर्भामध्ये अचूकपणे संश्लेषित करण्याची क्षमता आहे. याव्यतिरिक्त, हे वर्तमान AI चित्र जनरेटरसह वापरले जाऊ शकते.

या लेखात, आम्ही DreamBooth, त्याचा वापर, त्याचे ट्यूटोरियल, त्याच्या मर्यादा आणि बरेच काही यावर सखोल विचार करू.

ड्रीमबूथ म्हणजे काय?

ड्रीमबूथ, अगदी नवीन टेक्स्ट-टू-इमेज डिफ्यूजन मॉडेल, Google ने सादर केले. वेगवेगळ्या सेटिंग्जमध्ये वापरकर्त्याने निवडलेल्या विषयाचे फोटोंची विस्तृत श्रेणी व्युत्पन्न करण्यासाठी Google DreamBooth AI द्वारे मार्गदर्शन म्हणून लिखित प्रॉम्प्टचा वापर केला जाऊ शकतो.

बोस्टन युनिव्हर्सिटी आणि Google च्या संशोधन गटाने ड्रीमबूथ विकसित केले आहे, टेक्स्ट-टू-इमेज मॉडेल्समध्ये बदल करण्यासाठी एक अत्याधुनिक तंत्र ज्यांना विस्तृत पूर्व-प्रशिक्षण दिले गेले आहे.

एकूणच संकल्पना अगदी सरळ आहे: त्यांना भाषा-दृष्टी शब्दकोश वाढवायचा आहे जसे की असामान्य टोकन आयडी सानुकूल विषयांशी संबंधित आहेत जे वापरकर्ते परिभाषित करू शकतात.

मॉडेलचे मुख्य लक्ष्य वापरकर्त्यांना कनेक्ट करणे आहे मजकूर ते प्रतिमा प्रसार मॉडेल त्यांना त्यांच्या निवडलेल्या विषयाच्या उदाहरणांचे फोटोरिअलिस्टिक प्रतिनिधित्व तयार करण्यासाठी आवश्यक संसाधने देऊन.

परिणामी, हे तंत्र विविध परिस्थितींमध्ये आव्हानांचा सारांश देण्यासाठी चांगले कार्य करते असे दिसते.

Google चे DreamBooth मागील मजकूर-टू-इमेज टूल्सपेक्षा वेगळे आहे, जसे की DALL-E2, स्थिर प्रसारआणि मध्यप्रवास, ज्यामध्ये ते वापरकर्त्यांना मजकूर-आधारित इनपुट वापरून प्रसार मॉडेल हाताळू देण्यापूर्वी विषय प्रतिमेवर अधिक नियंत्रण देते.

वैशिष्ट्ये

DreamBooth AI 3-5 प्रतिमांसह टेक्स्ट-टू-इमेज मॉडेल सुधारू शकते.
DreamBooth AI सह मूळ फोटोरिअलिस्टिक फोटो तयार केले जाऊ शकतात.
याव्यतिरिक्त, DreamBooth AI अनेक कोनातून एखाद्या विषयाचे फोटो तयार करू शकते.

अर्ज

कला सादरीकरण

हे कार्य विशेषतः शैली हस्तांतरणापेक्षा वेगळे आहे, जे मूळ दृश्यात दुसर्‍या प्रतिमेची शैली समाविष्ट करताना स्त्रोत दृश्याचे शब्दार्थ ठेवते.

कला सादरीकरण

सर्जनशील दृष्टिकोनावर आधारित, AI ओळख आणि विषयाच्या उदाहरणाची वैशिष्ट्ये राखून लक्षणीय दृश्य बदल करू शकते.

मालमत्ता बदल

विषयाच्या उदाहरणाची वैशिष्ट्ये DreamBooth AI द्वारे सुधारली जाऊ शकतात.

मालमत्ता बदल

ऍक्सेसोरायझेशन

जनरेशन मॉडेलच्या अगोदरची मजबूत रचना ही ड्रीमबूथ AI ची वस्तू सुशोभित करण्याची क्षमता इतकी मनोरंजक बनवते.

ऍक्सेसोरायझेशन

पुनर्संदर्भीकरण

DreamBooth AI प्रशिक्षित मॉडेलला युनिक आयडेंटिफायर आणि वर्ग संज्ञा समाविष्ट करून विशिष्ट विषयाच्या उदाहरणासाठी विशिष्ट प्रतिमा तयार करू शकते.

पुनर्संदर्भीकरण

तो आजूबाजूचा परिसर बदलण्याऐवजी अनन्य, पूर्वी न ऐकलेल्या मुद्रा, अभिव्यक्ती आणि देखाव्याच्या रचनेमध्ये विषय तयार करू शकतो. वास्तववादी प्रतिबिंब आणि सावल्या, तसेच विषय आणि आसपासच्या वस्तूंमधील परस्परसंवाद.

ड्रीमबूथ ट्यूटोरियल

या ट्यूटोरियलमध्ये, आपण खालील गोष्टींचे अनुसरण करणार आहोत Google Collab नोटबुक, आणि मी तुम्हाला त्यातून पुढे जाईन, जे तुम्हाला समजून घेईल आणि ते स्वतः वापरेल.

GPU सेट करणे आणि लायब्ररी स्थापित करणे

कोणते GPU आणि VRAM प्रकार उपलब्ध आहेत हे शोधणे ही पहिली पायरी आहे. काही आवश्यकता आणि अवलंबित्व स्थापित करणे देखील आवश्यक आहे. फक्त प्ले बटण दाबा, नंतर ते पूर्ण होण्याची प्रतीक्षा करा.

GPU सेट करणे आणि लायब्ररी स्थापित करणे

Huggingface वर खाते तयार करा आणि टोकन तयार करा

पुढील पायरी म्हणजे हगिंगफेस खात्यासाठी नोंदणी करणे. तुम्ही पूर्ण केल्यावर, वरच्या उजव्या कोपर्यात सेटिंग्जवर क्लिक करा. तुम्ही पुढच्या पानावर पोहोचाल.

मिठी मारणारा चेहरा टोकन

येथून विनंती केल्याप्रमाणे टोकन आणि नाव तयार करा. खालील सेलमधील Google collab मध्ये टोकन कॉपी आणि पेस्ट केले जावे.

Google Colab मध्ये टोकन

xformers स्थापित करा

या टप्प्यात, रनटाइमवर क्लिक करून xformers स्थापित करण्यासाठी तुम्ही फक्त प्ले बटण दाबू शकता.

Xformers स्थापित करा

ड्राइव्हशी कनेक्ट करा

आता, गुगल ड्राइव्हशी कनेक्ट होण्यासाठी तुम्हाला हा सेल चालवावा लागेल.

ड्राइव्हशी कनेक्ट करा

प्रॉम्प्ट प्रविष्ट करा

खालील सेलमध्ये, तुम्हाला फक्त प्रॉम्प्ट एंटर करावे लागेल.

प्रॉम्प्ट प्रविष्ट करा

चित्रे अपलोड करत आहे

या चरणात, तुम्हाला फक्त चित्रे अपलोड करावी लागतील जी तुम्हाला प्रशिक्षित करायची आहेत.

या सेलमध्ये तुम्ही तुमच्या प्रतिमा अपलोड करू शकता

ट्रेन AI मॉडेल

हा सर्वात महत्त्वाचा टप्पा आहे, कारण तुम्ही तुमच्या सबमिट केलेल्या सर्व संदर्भ छायाचित्रांवर आधारित नवीन AI मॉडेलचे प्रशिक्षण देण्यासाठी DreamBooth चा वापर कराल. तुम्ही तुमचे लक्ष दोन इनपुट फील्डवर मर्यादित केले पाहिजे. “—instance prompt” हे पहिले पॅरामीटर आहे. तुम्ही येथे एक अत्यंत वेगळे नाव प्रदान करणे आवश्यक आहे.

'-संकल्पना सूची' युक्तिवाद हे दुसरे गंभीर इनपुट फील्ड आहे. 'चेंज द प्रॉम्प्ट' विभागात वापरलेल्या नावाशी जुळण्यासाठी त्याचे नाव बदलणे आवश्यक आहे.

एआय मॉडेलचे प्रशिक्षण

AI प्रतिमा तयार करा

या टप्प्यावर AI चित्रे तयार केली जातील, जिथे तुम्ही मजकूर सूचना इनपुट करू शकता.

AI प्रतिमा व्युत्पन्न करा

ड्रीमबूथ मर्यादा

कमांड प्रॉम्प्ट विषयामध्ये उच्च प्रमाणात तपशीलांसह पुनरावृत्ती करण्यासाठी अडथळा बनतो. DreamBooth विषयाचा संदर्भ बदलू शकतो, परंतु जर मॉडेलला विषय स्वतः बदलायचा असेल, तर फ्रेममध्ये समस्या आहेत.
दुसरी समस्या इनपुट प्रतिमेवर आउटपुट चित्र ओव्हरफिट करणे आहे. पुरेशी चित्रे न दिल्यास, विषयाचा विचार केला जाऊ शकत नाही किंवा सबमिट केलेल्या प्रतिमांच्या संदर्भासह मिश्रित केला जाऊ शकतो. विषम पिढीला संदर्भ विचारला जातो तेव्हा तीच गोष्ट घडते.

निष्कर्ष

एका मजकूर इनपुटमधून आउटपुट तयार करण्यासाठी, मोठ्या प्रमाणात मजकूर-ते-प्रतिमा मॉडेल्ससाठी लाखो पॅरामीटर्स आणि लायब्ररींची आवश्यकता असते.

ड्रीमबूथ मजकूर पार्श्वभूमीसह केवळ तीन ते पाच विषयांच्या छायाचित्रांचे इनपुट आवश्यक करून ग्राहकांसाठी सामग्री संपादन आणि वापर सुलभ करते.

नवशिक्यांसाठी ड्रीमबूथ ट्यूटोरियल

ड्रीमबूथ म्हणजे काय?

वैशिष्ट्ये