तपाईंले विगत केही वर्षहरूमा टेक्स्ट-टू-इमेज एआई मोडेलहरू कत्ति शक्तिशाली भएका छन् भन्ने बारे सुन्नु भएको होला। तर के तपाईंलाई थाहा छ कि एउटै प्रविधिले 2D बाट 3D मा छलांग बनाउन मद्दत गर्न सक्छ?
AI-उत्पन्न 3D मोडेलहरूको आजको डिजिटल परिदृश्यमा व्यापक प्रयोगको मामला छ। भिडियो खेल र फिल्म दक्ष थ्रीडी कलाकारहरू र ब्लेन्डर जस्ता मोडेलिङ सफ्टवेयरमा भर पर्छ जसले कम्प्युटर-उत्पन्न दृश्यहरू भर्नका लागि थ्रीडी सम्पत्तिहरू सिर्जना गर्दछ।
यद्यपि, के यो सम्भव छ कि उद्योगले कम प्रयासमा 3D सम्पत्तिहरू सिर्जना गर्न मेसिन लर्निङ प्रयोग गर्न सक्छ, जसरी आज 2D कलाकारहरूले DALL-E जस्ता प्रविधिहरू अपनाउन थालेका छन्। मध्य यात्रा?
यस लेखले एउटा उपन्यास एल्गोरिथ्म अन्वेषण गर्नेछ जसले अवस्थित प्रयोग गरेर प्रभावकारी पाठ-देखि-3D मोडेल सिर्जना गर्ने प्रयास गर्दछ। प्रसार मोडेलहरू.
के हो ड्रीमफ्युजन?
3D सम्पत्तिहरू सीधै उत्पन्न गर्ने एक प्रसार मोडेल सिर्जना गर्ने एउटा प्रमुख मुद्दा यो हो कि त्यहाँ धेरै 3D डाटा उपलब्ध छैन। 2D प्रसार मोडेलहरू इन्टरनेटमा फेला परेका छविहरूको विशाल डेटासेटको कारण धेरै शक्तिशाली भएका छन्। उही 3D सम्पत्ति संग भन्न सकिदैन।
केही 3D उत्पादन प्रविधिहरूले 2D डाटाको यो प्रचुरताको फाइदा उठाएर डाटाको अभावको वरिपरि काम गर्दछ।
DreamFusion प्रदान गरिएको पाठ विवरणको आधारमा 3D मोडेलहरू सिर्जना गर्न सक्ने जनरेटिभ मोडेल हो। DreamFusion मोडेलले पाठ प्रम्प्टहरूबाट यथार्थपरक त्रि-आयामी मोडेलहरू उत्पन्न गर्न पूर्व-प्रशिक्षित पाठ-देखि-छवि प्रसार मोडेल प्रयोग गर्दछ।
कुनै 3D प्रशिक्षण डेटा नभएको बावजुद, यो दृष्टिकोणले उच्च निष्ठा उपस्थिति र गहिराई संग सुसंगत 3D सम्पत्तिहरू उत्पन्न गरेको छ।
यस्ले कसरी काम गर्छ?
DreamFusion एल्गोरिथ्म दुई मुख्य मोडेलहरू समावेश गर्दछ: एक 2D प्रसार मोडेल र एक तंत्रिका सञ्जाल जसले 2D तस्बिरहरूलाई एकजुट 3D दृश्यमा रूपान्तरण गर्न सक्छ।
Google को छवि पाठ-देखि-छवि मोडेल
एल्गोरिथ्मको पहिलो भाग प्रसार मोडेल हो। यो मोडेल पाठलाई छविहरूमा रूपान्तरण गर्न जिम्मेवार छ।
इमेज एउटा प्रसार मोडेल हो जसले कुनै विशेष वस्तुको छवि भिन्नताहरूको ठूलो नमूना उत्पन्न गर्न सक्छ। यस अवस्थामा, हाम्रो छवि भिन्नताहरूले प्रदान गरिएको वस्तुको सबै सम्भावित कोणहरू समावेश गर्नुपर्छ। उदाहरणका लागि, यदि हामी घोडाको 3D मोडेल उत्पन्न गर्न चाहन्छौं भने, हामी सबै सम्भावित कोणहरूबाट घोडाको 2D छविहरू चाहन्छौं। हाम्रो एल्गोरिथ्ममा अर्को मोडेलको लागि सम्भव भएसम्म धेरै जानकारी (रङ, प्रतिबिम्ब, घनत्व) प्रदान गर्न Imagen प्रयोग गर्नु लक्ष्य हो।
NeRF को साथ 3D मोडेलहरू सिर्जना गर्दै
अर्को, ड्रीमफ्युजन ए को रूपमा चिनिने मोडेल प्रयोग गर्दछ न्यूरल रेडियन्स फिल्ड वा वास्तवमा उत्पन्न छवि सेटबाट 3D मोडेल सिर्जना गर्न NeRF। NeRFs 3D छविहरूको डेटासेट दिएर जटिल 2D दृश्यहरू सिर्जना गर्न सक्षम छन्।
NRF कसरी काम गर्छ भनेर बुझ्न प्रयास गरौं।
मोडेलले 2D छविहरूको प्रदान गरिएको डेटासेटबाट अनुकूलित निरन्तर भोल्युमेट्रिक दृश्य प्रकार्य सिर्जना गर्ने लक्ष्य राख्छ।
यदि मोडेलले प्रकार्य सिर्जना गर्छ भने, इनपुट र आउटपुट के हो?
दृश्य प्रकार्यले इनपुटको रूपमा 3D स्थान र 2D हेर्ने दिशा लिन्छ। प्रकार्यले त्यसपछि रङ (RGB को रूपमा) र एक विशिष्ट भोल्युम घनत्व आउटपुट गर्दछ।
एक विशिष्ट दृष्टिकोणबाट 2D छवि उत्पन्न गर्न, मोडेलले 3D बिन्दुहरूको सेट उत्पन्न गर्नेछ र रंग र भोल्युम घनत्व मानहरूको सेट फर्काउन दृश्य प्रकार्य मार्फत ती बिन्दुहरू चलाउनेछ। भोल्युम रेन्डरिङ प्रविधिहरूले त्यसपछि ती मानहरूलाई 2D छवि आउटपुटमा रूपान्तरण गर्नेछ।
NeRF र 2D प्रसार मोडेलहरू सँगै प्रयोग गर्दै
अब जब हामीलाई थाहा छ कि कसरी एक NeRF काम गर्दछ, आउनुहोस् यो मोडेलले कसरी हाम्रो उत्पन्न छविहरूबाट सही 3D मोडेलहरू उत्पन्न गर्न सक्छ।
प्रत्येक प्रदान गरिएको टेक्स्ट प्रम्प्टको लागि, DreamFusion ले स्क्र्याचबाट अनियमित रूपमा प्रारम्भ गरिएको NRF लाई तालिम दिन्छ। प्रत्येक पुनरावृत्तिले गोलाकार निर्देशांकहरूको सेटमा अनियमित क्यामेरा स्थिति छान्छ। गिलासको घेरामा घेरिएको मोडेलको बारेमा सोच्नुहोस्। प्रत्येक चोटि हामीले हाम्रो 3D मोडेलको नयाँ छवि उत्पन्न गर्छौं, हामी हाम्रो आउटपुटको सहूलियत बिन्दुको रूपमा हाम्रो क्षेत्रमा अनियमित बिन्दु छनौट गर्नेछौं। DreamFusion ले अनियमित प्रकाश स्थिति पनि छनोट गर्नेछ l प्रतिपादनको लागि प्रयोग गर्न।
एकचोटि हामीसँग क्यामेरा र लाइट पोजिसन हुन्छ, एनआरएफ मोडेल रेन्डर गरिनेछ। DreamFusion ले रंगीन रेन्डर, टेक्सचरलेस रेन्डर, र कुनै छायांकन बिना अल्बेडोको रेन्डरिङ बीचमा पनि अनियमित रूपमा छनोट गर्नेछ।
हामीले पहिले नै उल्लेख गरिसकेका छौं कि हामी हाम्रो पाठ-देखि-छवि मोडेल (Imagen) ले प्रतिनिधि नमूना सिर्जना गर्न पर्याप्त छविहरू उत्पादन गर्न चाहन्छौं।
Dreamfusion ले यो कसरी पूरा गर्छ?
Dreamfusion ले अपेक्षित कोणहरू प्राप्त गर्न इनपुट प्रम्प्टलाई थोरै परिमार्जन गर्दछ। उदाहरणका लागि, हामी हाम्रो प्रम्प्टमा "ओभरहेड दृश्य" जोडेर उच्च उचाइ कोणहरू प्राप्त गर्न सक्छौं। हामी "अगाडि दृश्य", "साइड दृश्य", र "पछाडि दृश्य" जस्ता वाक्यांशहरू जोडेर अन्य कोणहरू उत्पन्न गर्न सक्छौं।
दृश्यहरू अनियमित क्यामेरा स्थितिहरूबाट बारम्बार रेन्डर गरिएका छन्। यी रेन्डरिङहरू त्यसपछि स्कोर डिस्टिलेसन हानि प्रकार्यबाट पास हुन्छन्। एक साधारण ग्रेडियन्ट डिसेन्ट दृष्टिकोणले बिस्तारै सुधार गर्नेछ 3D मोडेल जबसम्म यो पाठ द्वारा वर्णन गरिएको दृश्यसँग मेल खाँदैन।
एकपटक हामीले NeRF प्रयोग गरेर 3D मोडेल रेन्डर गरेपछि, हामी प्रयोग गर्न सक्छौं मार्चिङ क्यूब्स एल्गोरिथ्म हाम्रो मोडेलको 3D जाल आउटपुट गर्न। यो जाल त्यसपछि लोकप्रिय 3D रेन्डरर वा मोडलिङ सफ्टवेयरमा आयात गर्न सकिन्छ।
सीमितता
जबकि DreamFusion को आउटपुट पर्याप्त प्रभावशाली छ किनकि यसले अवस्थित टेक्स्ट-टू-इमेज डिफ्यूजन मोडेलहरू उपन्यास तरिकामा प्रयोग गर्दछ, अनुसन्धानकर्ताहरूले केही सीमितताहरू नोट गरेका छन्।
एसडीएस हानि प्रकार्यले ओभरस्याचुरेटेड र ओभर-स्मूथ परिणामहरू उत्पादन गर्न अवलोकन गरेको छ। तपाईंले यसलाई अप्राकृतिक रंग र आउटपुटहरूमा फेला परेको सटीक विवरणको अभावमा अवलोकन गर्न सक्नुहुन्छ।
DreamFusion एल्गोरिथ्म पनि इमेजेन मोडेल आउटपुटको रिजोल्युसन द्वारा सीमित छ, जुन 64 x 64 पिक्सेल हो। यसले संश्लेषित मोडेलहरूमा राम्रो विवरणहरूको अभाव हुन्छ।
अन्तमा, अन्वेषकहरूले नोट गरेका छन् कि 3D डाटाबाट 2D मोडेलहरू संश्लेषण गर्न एक अन्तर्निहित चुनौती छ। त्यहाँ धेरै सम्भावित 3D मोडेलहरू छन् जुन हामीले 2D छविहरूको सेटबाट उत्पन्न गर्न सक्छौं, जसले अप्टिमाइजेसनलाई धेरै गाह्रो र अस्पष्ट पनि बनाउँछ।
निष्कर्ष
DreamFusion को 3D रेन्डरिङहरूले कुनै पनि वस्तु वा दृश्य सिर्जना गर्न पाठ-देखि-छवि प्रसार मोडेलहरूको क्षमताको कारणले राम्रोसँग काम गर्दछ। यो प्रभावशाली छ कि कसरी न्यूरल नेटवर्कले 3D स्पेसमा कुनै 3D प्रशिक्षण डेटा बिना दृश्य बुझ्न सक्छ। म पढ्न सिफारिस गर्दछु सम्पूर्ण कागज DreamFusion एल्गोरिथ्मको प्राविधिक विवरणहरू बारे थप जान्नको लागि।
आशा छ, यो प्रविधिले अन्ततः फोटो-यथार्थवादी 3D मोडेलहरू सिर्जना गर्न सुधार गर्नेछ। AI-उत्पन्न वातावरण प्रयोग गर्ने सम्पूर्ण भिडियो गेम वा सिमुलेशनहरूको कल्पना गर्नुहोस्। यसले इमर्सिभ थ्रीडी संसारहरू सिर्जना गर्न भिडियो गेम विकासकर्ताहरूको लागि प्रवेशको अवरोधलाई कम गर्न सक्छ!
पाठ-देखि-3D मोडेलले भविष्यमा कस्तो भूमिका खेल्नेछ भन्ने तपाईंलाई लाग्छ?
जवाफ छाड्नुस्