विषयसूची[लुकाउनुहोस्][देखाउनु]
ठूला टेक्स्ट-टू-इमेज मोडेलहरूले दिइएको टेक्स्ट प्रम्प्टबाट उच्च-गुणस्तर र विविध चित्र संश्लेषण उत्पादन गरेर AI को विकासमा महत्त्वपूर्ण प्रगति गरेका छन्।
यी मोडेलहरू विभिन्न सेटिङहरूमा विषयहरूको अद्वितीय प्रतिनिधित्वहरू संश्लेषण गर्न वा दिइएको सन्दर्भ सेटमा विषयहरूको उपस्थिति प्रतिकृति गर्न असमर्थ छन्।
OpenAI को DALL.E2 वा StabilityAI जस्ता भर्खरै जारी प्रविधिहरू स्थिर प्रसार र मिडजर्नीले पहिले नै आँधीबेहरीमा इन्टरनेट लिइरहेको छ। अब परिणामहरू अनुकूलन गर्ने समय हो। तर पनि कसरी ?
Google DreamBooth AI आइपुग्यो।
DreamBooth सँग तस्विरको विषय पहिचान गर्ने, यसको मौलिक सन्दर्भबाट यसलाई विघटन गर्ने, र त्यसपछि यसलाई नयाँ इच्छित सन्दर्भमा ठीकसँग संश्लेषण गर्ने क्षमता छ। थप रूपमा, यो हालको एआई चित्र जेनेरेटरहरूसँग प्रयोग गर्न सकिन्छ।
यस लेखमा, हामी DreamBooth, यसको प्रयोग, यसको ट्यूटोरियल, यसका सीमितताहरू, र अधिकमा गहिरो नजर राख्नेछौं।
Dreambooth के हो?
ड्रीमबुथ, एक ब्रान्ड-नयाँ टेक्स्ट-टू-इमेज डिफ्यूजन मोडेल, Google द्वारा प्रस्तुत गरिएको थियो। लिखित प्रम्प्टलाई Google DreamBooth AI द्वारा विभिन्न सेटिङहरूमा प्रयोगकर्ताको चयन गरिएको विषयको फोटोहरूको विस्तृत दायरा उत्पन्न गर्न निर्देशनको रूपमा प्रयोग गर्न सकिन्छ।
बोस्टन युनिभर्सिटी र गुगलको अनुसन्धान समूहले ड्रीमबुथको विकास गर्यो, पाठ-देखि-छवि मोडेलहरू परिवर्तन गर्नको लागि एक अत्याधुनिक प्रविधि जसले व्यापक पूर्व-प्रशिक्षण पार गरेको छ।
समग्र अवधारणा बरु सीधा छ: तिनीहरू भाषा-दृश्य शब्दकोश बढाउन चाहन्छन् कि असामान्य टोकन आईडीहरू प्रयोगकर्ताहरूले परिभाषित गर्न सक्ने अनुकूलन विषयहरूसँग सम्बन्धित छन्।
मोडेलको मुख्य लक्ष्य प्रयोगकर्ताहरूलाई जडान गर्न हो पाठ-देखि-छवि प्रसार मोडेल उनीहरूलाई स्रोतहरू दिएर उनीहरूले चयन गरिएका विषयवस्तुहरूको उदाहरणहरूको फोटोरियलिस्ट प्रतिनिधित्वहरू उत्पादन गर्न आवश्यक छ।
नतिजाको रूपमा, यो प्रविधिले परिस्थितिहरूको दायरामा चुनौतीहरूको संक्षेपमा राम्रोसँग काम गरेको देखिन्छ।
Google को DreamBooth अघिल्लो पाठ-देखि-छवि उपकरणहरू भन्दा फरक छ, जस्तै DALL-E2, स्थिर प्रसार, र मध्य यात्रा, यसमा यसले प्रयोगकर्ताहरूलाई पाठ-आधारित इनपुटहरू प्रयोग गरेर प्रसार मोडेल हेरफेर गर्न दिनु अघि विषय छविमा थप नियन्त्रण दिन्छ।
विशेषताहरु
- DreamBooth AI ले 3-5 छविहरूसँग पाठ-देखि-छवि मोडेल सुधार गर्न सक्छ।
- मूल फोटोरियलिस्टिक फोटोहरू DreamBooth AI मार्फत सिर्जना गर्न सकिन्छ।
- थप रूपमा, DreamBooth AI ले धेरै कोणबाट विषयको फोटोहरू सिर्जना गर्न सक्छ।
आवेदन
कला प्रस्तुतिहरू
यो कार्य शैली स्थानान्तरणबाट विशेष रूपमा फरक छ, जसले मूल दृश्यमा अर्को छविको शैली समावेश गर्दा स्रोत दृश्यको अर्थशास्त्रलाई राख्छ।
रचनात्मक दृष्टिकोणको आधारमा, AI ले पहिचान र विषय उदाहरण विशिष्टताहरू कायम राख्दा महत्त्वपूर्ण दृश्य परिवर्तनहरू पूरा गर्न सक्छ।
सम्पत्ति परिमार्जन
विषय उदाहरणका विशेषताहरू DreamBooth AI द्वारा परिमार्जन गर्न सकिन्छ।
एक्सेसराइजेशन
जेनेरेशन मोडेल भन्दा पहिलेको बलियो संरचनाले ड्रीमबुथ एआईको वस्तुहरू सजाउने क्षमतालाई यति रोचक बनाउँछ।
पुनर्सन्दर्भीकरण
DreamBooth AI ले एक निश्चित विषय उदाहरणका लागि विशिष्ट छविहरू उत्पादन गर्न सक्छ प्रशिक्षित मोडेललाई एउटा वाक्य दिएर जसमा अद्वितीय पहिचानकर्ता र वर्ग संज्ञा समावेश हुन्छ।
यसले विषयलाई अनौठो, पहिले नसुनेको मुद्रा, अभिव्यक्ति, र दृश्य संरचनामा परिवेश परिवर्तन गर्नुको सट्टा उत्पन्न गर्न सक्छ। यथार्थपरक प्रतिबिम्ब र छायाहरू, साथै विषय र वरपरका वस्तुहरू बीचको अन्तरक्रिया।
Dreambooth ट्यूटोरियल
यस ट्यूटोरियलमा, हामी पछ्याउनेछौं गुगल कोलाब नोटबुक, र म तिमीलाई त्यसको माध्यमबाट हिंड्नेछु, जसले तिमीलाई बुझ्ने र यसलाई आफ्नै प्रयोगमा ल्याउनेछ।
GPU सेटअप र पुस्तकालयहरू स्थापना गर्दै
कुन GPU र VRAM प्रकारहरू उपलब्ध छन् पत्ता लगाउनु पहिलो चरण हो। केही आवश्यकताहरू र निर्भरताहरू स्थापना गर्न पनि आवश्यक छ। केवल प्ले बटन थिच्नुहोस्, त्यसपछि समाप्त हुनको लागि पर्खनुहोस्।
Huggingface मा खाता सिर्जना गर्नुहोस् र टोकन उत्पन्न गर्नुहोस्
अर्को चरण भनेको Huggingface खाताको लागि दर्ता गर्नु हो। जब तपाईंले समाप्त गर्नुभयो, शीर्ष दायाँ कुनामा सेटिङहरूमा क्लिक गर्नुहोस्। तपाईं अर्को पृष्ठमा पुग्नुहुनेछ।
यहाँबाट अनुरोध गरे अनुसार टोकन र नाम सिर्जना गर्नुहोस्। टोकन तलको कक्षमा रहेको Google कोलाबमा प्रतिलिपि गरी टाँस्नु पर्छ।
xformers स्थापना गर्नुहोस्
यस चरणमा, तपाईले रनटाइममा क्लिक गरेर xformers स्थापना गर्न प्ले बटन थिच्न सक्नुहुन्छ।
ड्राइभमा जडान गर्नुहोस्
अब, तपाईंले गुगल ड्राइभमा जडान गर्न यो सेल चलाउनु पर्छ।
प्रम्प्ट प्रविष्ट गर्नुहोस्
निम्न कक्षमा, तपाईंले भर्खर प्रम्प्ट प्रविष्ट गर्नुपर्नेछ।
तस्बिरहरू अपलोड गर्दै
यस चरणमा, तपाईंले भर्खरै तस्बिरहरू अपलोड गर्नुपर्नेछ जुन तपाईंले तालिम दिन चाहनुहुन्छ।
ट्रेन एआई मोडेल
यो सबैभन्दा महत्त्वपूर्ण चरण हो, किनकि तपाईंले आफ्नो पेश गरिएका सबै सन्दर्भ फोटोहरूमा आधारित नयाँ एआई मोडेललाई तालिम दिन ड्रीमबुथको प्रयोग गरिरहनुभएको छ। तपाईंले आफ्नो ध्यान दुई इनपुट क्षेत्रहरूमा सीमित गर्नुपर्छ। "-उदाहरण प्रम्प्ट" पहिलो प्यारामिटर हो। तपाईंले यहाँ उच्च फरक नाम प्रदान गर्नुपर्छ।
'-concept list' तर्क दोस्रो महत्वपूर्ण इनपुट क्षेत्र हो। यसलाई 'प्रम्प्ट परिवर्तन गर्नुहोस्' खण्डमा प्रयोग गरिएकोसँग मिलाउन पुन: नामाकरण गरिनुपर्छ।
AI छविहरू उत्पन्न गर्नुहोस्
AI चित्रहरू यस चरणमा सिर्जना गरिनेछ, जहाँ तपाइँ पाठ निर्देशनहरू इनपुट गर्न सक्नुहुन्छ।
Dreambooth सीमाहरू
- कमाण्ड प्रम्प्टले उच्च डिग्रीको विवरणको साथ शीर्षकमा पुनरावृत्तिहरू गर्न बाधा बनाउँछ। DreamBooth ले विषयको सन्दर्भ परिवर्तन गर्न सक्छ, तर यदि मोडेलले विषय आफैं परिवर्तन गर्न चाहन्छ भने, त्यहाँ फ्रेमसँग समस्याहरू छन्।
- अर्को मुद्दा इनपुट छविमा आउटपुट चित्रलाई ओभरफिट गर्नु हो। यदि त्यहाँ पर्याप्त तस्बिरहरू आपूर्ति गरिएको छैन भने, विषयलाई विचार गर्न सकिँदैन वा पेश गरिएका छविहरूको सन्दर्भसँग मिलाउन सकिन्छ। विचित्र पुस्ताको सन्दर्भ सोध्दा उस्तै कुरा हुन्छ।
निष्कर्ष
एकल पाठ इनपुटबाट आउटपुटहरू उत्पादन गर्न, पाठ-देखि-छवि मोडेलहरूको थोकलाई लाखौं प्यारामिटरहरू र पुस्तकालयहरू चाहिन्छ।
ड्रीमबुथले पाठ्य पृष्ठभूमिको साथमा तीन देखि पाँच विषयका फोटोहरूको इनपुट मात्र आवश्यक गरी उपभोक्ताहरूका लागि सामग्री प्राप्ति र प्रयोगलाई सरल बनाउँछ।
जवाफ छाड्नुस्