अनुक्रमणिका[लपवा][दाखवा]
मोठ्या मजकूर-ते-प्रतिमा मॉडेल्सने दिलेल्या मजकूर प्रॉम्प्टमधून उच्च-गुणवत्तेचे आणि वैविध्यपूर्ण चित्र संश्लेषण तयार करून AI च्या विकासामध्ये लक्षणीय प्रगती केली आहे.
हे मॉडेल विविध सेटिंग्जमधील विषयांचे अद्वितीय प्रतिनिधित्व संश्लेषित करण्यात किंवा दिलेल्या संदर्भ संचामध्ये विषयांच्या स्वरूपाची प्रतिकृती तयार करण्यात अक्षम आहेत.
OpenAI चे DALL.E2 किंवा StabilityAI सारखे नवीन रिलीझ झालेले तंत्रज्ञान स्थिर प्रसार आणि मिडजर्नी आधीच वादळाने इंटरनेट घेत आहेत. आता निकाल सानुकूलित करण्याची वेळ आली आहे. तरीही कसे?
Google DreamBooth AI आले आहे.
ड्रीमबूथमध्ये चित्राचा विषय ओळखण्याची, त्याच्या मूळ संदर्भातून त्याची रचना करण्याची आणि नंतर नवीन इच्छित संदर्भामध्ये अचूकपणे संश्लेषित करण्याची क्षमता आहे. याव्यतिरिक्त, हे वर्तमान AI चित्र जनरेटरसह वापरले जाऊ शकते.
या लेखात, आम्ही DreamBooth, त्याचा वापर, त्याचे ट्यूटोरियल, त्याच्या मर्यादा आणि बरेच काही यावर सखोल विचार करू.
ड्रीमबूथ म्हणजे काय?
ड्रीमबूथ, अगदी नवीन टेक्स्ट-टू-इमेज डिफ्यूजन मॉडेल, Google ने सादर केले. वेगवेगळ्या सेटिंग्जमध्ये वापरकर्त्याने निवडलेल्या विषयाचे फोटोंची विस्तृत श्रेणी व्युत्पन्न करण्यासाठी Google DreamBooth AI द्वारे मार्गदर्शन म्हणून लिखित प्रॉम्प्टचा वापर केला जाऊ शकतो.
बोस्टन युनिव्हर्सिटी आणि Google च्या संशोधन गटाने ड्रीमबूथ विकसित केले आहे, टेक्स्ट-टू-इमेज मॉडेल्समध्ये बदल करण्यासाठी एक अत्याधुनिक तंत्र ज्यांना विस्तृत पूर्व-प्रशिक्षण दिले गेले आहे.
एकूणच संकल्पना अगदी सरळ आहे: त्यांना भाषा-दृष्टी शब्दकोश वाढवायचा आहे जसे की असामान्य टोकन आयडी सानुकूल विषयांशी संबंधित आहेत जे वापरकर्ते परिभाषित करू शकतात.
मॉडेलचे मुख्य लक्ष्य वापरकर्त्यांना कनेक्ट करणे आहे मजकूर ते प्रतिमा प्रसार मॉडेल त्यांना त्यांच्या निवडलेल्या विषयाच्या उदाहरणांचे फोटोरिअलिस्टिक प्रतिनिधित्व तयार करण्यासाठी आवश्यक संसाधने देऊन.
परिणामी, हे तंत्र विविध परिस्थितींमध्ये आव्हानांचा सारांश देण्यासाठी चांगले कार्य करते असे दिसते.
Google चे DreamBooth मागील मजकूर-टू-इमेज टूल्सपेक्षा वेगळे आहे, जसे की DALL-E2, स्थिर प्रसारआणि मध्यप्रवास, ज्यामध्ये ते वापरकर्त्यांना मजकूर-आधारित इनपुट वापरून प्रसार मॉडेल हाताळू देण्यापूर्वी विषय प्रतिमेवर अधिक नियंत्रण देते.
वैशिष्ट्ये
- DreamBooth AI 3-5 प्रतिमांसह टेक्स्ट-टू-इमेज मॉडेल सुधारू शकते.
- DreamBooth AI सह मूळ फोटोरिअलिस्टिक फोटो तयार केले जाऊ शकतात.
- याव्यतिरिक्त, DreamBooth AI अनेक कोनातून एखाद्या विषयाचे फोटो तयार करू शकते.
अर्ज
कला सादरीकरण
हे कार्य विशेषतः शैली हस्तांतरणापेक्षा वेगळे आहे, जे मूळ दृश्यात दुसर्या प्रतिमेची शैली समाविष्ट करताना स्त्रोत दृश्याचे शब्दार्थ ठेवते.
सर्जनशील दृष्टिकोनावर आधारित, AI ओळख आणि विषयाच्या उदाहरणाची वैशिष्ट्ये राखून लक्षणीय दृश्य बदल करू शकते.
मालमत्ता बदल
विषयाच्या उदाहरणाची वैशिष्ट्ये DreamBooth AI द्वारे सुधारली जाऊ शकतात.
ऍक्सेसोरायझेशन
जनरेशन मॉडेलच्या अगोदरची मजबूत रचना ही ड्रीमबूथ AI ची वस्तू सुशोभित करण्याची क्षमता इतकी मनोरंजक बनवते.
पुनर्संदर्भीकरण
DreamBooth AI प्रशिक्षित मॉडेलला युनिक आयडेंटिफायर आणि वर्ग संज्ञा समाविष्ट करून विशिष्ट विषयाच्या उदाहरणासाठी विशिष्ट प्रतिमा तयार करू शकते.
तो आजूबाजूचा परिसर बदलण्याऐवजी अनन्य, पूर्वी न ऐकलेल्या मुद्रा, अभिव्यक्ती आणि देखाव्याच्या रचनेमध्ये विषय तयार करू शकतो. वास्तववादी प्रतिबिंब आणि सावल्या, तसेच विषय आणि आसपासच्या वस्तूंमधील परस्परसंवाद.
ड्रीमबूथ ट्यूटोरियल
या ट्यूटोरियलमध्ये, आपण खालील गोष्टींचे अनुसरण करणार आहोत Google Collab नोटबुक, आणि मी तुम्हाला त्यातून पुढे जाईन, जे तुम्हाला समजून घेईल आणि ते स्वतः वापरेल.
GPU सेट करणे आणि लायब्ररी स्थापित करणे
कोणते GPU आणि VRAM प्रकार उपलब्ध आहेत हे शोधणे ही पहिली पायरी आहे. काही आवश्यकता आणि अवलंबित्व स्थापित करणे देखील आवश्यक आहे. फक्त प्ले बटण दाबा, नंतर ते पूर्ण होण्याची प्रतीक्षा करा.
Huggingface वर खाते तयार करा आणि टोकन तयार करा
पुढील पायरी म्हणजे हगिंगफेस खात्यासाठी नोंदणी करणे. तुम्ही पूर्ण केल्यावर, वरच्या उजव्या कोपर्यात सेटिंग्जवर क्लिक करा. तुम्ही पुढच्या पानावर पोहोचाल.
येथून विनंती केल्याप्रमाणे टोकन आणि नाव तयार करा. खालील सेलमधील Google collab मध्ये टोकन कॉपी आणि पेस्ट केले जावे.
xformers स्थापित करा
या टप्प्यात, रनटाइमवर क्लिक करून xformers स्थापित करण्यासाठी तुम्ही फक्त प्ले बटण दाबू शकता.
ड्राइव्हशी कनेक्ट करा
आता, गुगल ड्राइव्हशी कनेक्ट होण्यासाठी तुम्हाला हा सेल चालवावा लागेल.
प्रॉम्प्ट प्रविष्ट करा
खालील सेलमध्ये, तुम्हाला फक्त प्रॉम्प्ट एंटर करावे लागेल.
चित्रे अपलोड करत आहे
या चरणात, तुम्हाला फक्त चित्रे अपलोड करावी लागतील जी तुम्हाला प्रशिक्षित करायची आहेत.
ट्रेन AI मॉडेल
हा सर्वात महत्त्वाचा टप्पा आहे, कारण तुम्ही तुमच्या सबमिट केलेल्या सर्व संदर्भ छायाचित्रांवर आधारित नवीन AI मॉडेलचे प्रशिक्षण देण्यासाठी DreamBooth चा वापर कराल. तुम्ही तुमचे लक्ष दोन इनपुट फील्डवर मर्यादित केले पाहिजे. “—instance prompt” हे पहिले पॅरामीटर आहे. तुम्ही येथे एक अत्यंत वेगळे नाव प्रदान करणे आवश्यक आहे.
'-संकल्पना सूची' युक्तिवाद हे दुसरे गंभीर इनपुट फील्ड आहे. 'चेंज द प्रॉम्प्ट' विभागात वापरलेल्या नावाशी जुळण्यासाठी त्याचे नाव बदलणे आवश्यक आहे.
AI प्रतिमा तयार करा
या टप्प्यावर AI चित्रे तयार केली जातील, जिथे तुम्ही मजकूर सूचना इनपुट करू शकता.
ड्रीमबूथ मर्यादा
- कमांड प्रॉम्प्ट विषयामध्ये उच्च प्रमाणात तपशीलांसह पुनरावृत्ती करण्यासाठी अडथळा बनतो. DreamBooth विषयाचा संदर्भ बदलू शकतो, परंतु जर मॉडेलला विषय स्वतः बदलायचा असेल, तर फ्रेममध्ये समस्या आहेत.
- दुसरी समस्या इनपुट प्रतिमेवर आउटपुट चित्र ओव्हरफिट करणे आहे. पुरेशी चित्रे न दिल्यास, विषयाचा विचार केला जाऊ शकत नाही किंवा सबमिट केलेल्या प्रतिमांच्या संदर्भासह मिश्रित केला जाऊ शकतो. विषम पिढीला संदर्भ विचारला जातो तेव्हा तीच गोष्ट घडते.
निष्कर्ष
एका मजकूर इनपुटमधून आउटपुट तयार करण्यासाठी, मोठ्या प्रमाणात मजकूर-ते-प्रतिमा मॉडेल्ससाठी लाखो पॅरामीटर्स आणि लायब्ररींची आवश्यकता असते.
ड्रीमबूथ मजकूर पार्श्वभूमीसह केवळ तीन ते पाच विषयांच्या छायाचित्रांचे इनपुट आवश्यक करून ग्राहकांसाठी सामग्री संपादन आणि वापर सुलभ करते.
प्रत्युत्तर द्या