मागील काही वर्षांत टेक्स्ट-टू-इमेज एआय मॉडेल्स किती शक्तिशाली बनल्या आहेत याबद्दल तुम्ही ऐकले असेल. पण तुम्हाला माहित आहे का की हेच तंत्रज्ञान 2D ते 3D वर झेप घेण्यास मदत करू शकते?
आजच्या डिजिटल लँडस्केपमध्ये AI-व्युत्पन्न 3D मॉडेल्सचा व्यापक वापर आहे. व्हिडिओ गेम आणि चित्रपट कुशल 3D कलाकारांवर आणि ब्लेंडर सारख्या मॉडेलिंग सॉफ्टवेअरवर अवलंबून असतात जे संगणक-व्युत्पन्न दृश्ये तयार करण्यासाठी 3D मालमत्ता तयार करतात.
तथापि, हे शक्य आहे की उद्योग कमी प्रयत्नात 3D मालमत्ता तयार करण्यासाठी मशीन लर्निंगचा वापर करू शकेल, जसे की 2D कलाकार आज DALL-E आणि सारख्या तंत्रज्ञानाचा अवलंब करू लागले आहेत. मध्यप्रवास?
हा लेख एक नवीन अल्गोरिदम एक्सप्लोर करेल जो विद्यमान वापरून एक प्रभावी मजकूर-टू-3डी मॉडेल तयार करण्याचा प्रयत्न करतो. प्रसार मॉडेल.
काय आहे ड्रीमफ्यूजन?
थेट 3D मालमत्ता व्युत्पन्न करणारे डिफ्यूजन मॉडेल तयार करताना एक प्रमुख समस्या म्हणजे तेथे भरपूर 3D डेटा उपलब्ध नाही. इंटरनेटवर सापडलेल्या प्रतिमांच्या विशाल डेटासेटमुळे 2D प्रसार मॉडेल इतके शक्तिशाली झाले आहेत. 3D मालमत्तेबाबत असेच म्हणता येणार नाही.
काही 3D जनरेटिव्ह तंत्रे 2D डेटाच्या या मुबलकतेचा फायदा घेऊन डेटाच्या कमतरतेवर कार्य करतात.
ड्रीमफ्यूजन हे एक जनरेटिव्ह मॉडेल आहे जे प्रदान केलेल्या मजकूर वर्णनावर आधारित 3D मॉडेल तयार करू शकते. ड्रीमफ्यूजन मॉडेल टेक्स्ट प्रॉम्प्टमधून वास्तववादी त्रिमितीय मॉडेल तयार करण्यासाठी पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूजन मॉडेल वापरते.
कोणताही 3D प्रशिक्षण डेटा नसतानाही, या दृष्टिकोनाने उच्च-विश्वस्त स्वरूप आणि खोलीसह सुसंगत 3D मालमत्ता निर्माण केली आहे.
हे कस काम करत?
DreamFusion अल्गोरिदममध्ये दोन मुख्य मॉडेल असतात: एक 2D प्रसार मॉडेल आणि a मज्जासंस्थेसंबंधीचा नेटवर्क जे 2D प्रतिमांना एकसंध 3D दृश्यात रूपांतरित करू शकते.
Google चे इमेजन टेक्स्ट-टू-इमेज मॉडेल
अल्गोरिदमचा पहिला भाग डिफ्यूजन मॉडेल आहे. हे मॉडेल मजकूर प्रतिमांमध्ये रूपांतरित करण्यासाठी जबाबदार आहे.
इमेजेन हे एक प्रसार मॉडेल आहे जे विशिष्ट ऑब्जेक्टच्या प्रतिमा भिन्नतेचा एक मोठा नमुना तयार करू शकते. या प्रकरणात, आमच्या प्रतिमा भिन्नतेने प्रदान केलेल्या ऑब्जेक्टचे सर्व संभाव्य कोन समाविष्ट केले पाहिजेत. उदाहरणार्थ, जर आम्हाला घोड्याचे 3D मॉडेल तयार करायचे असेल, तर आम्हाला सर्व संभाव्य कोनातून घोड्याच्या 2D प्रतिमा हव्या आहेत. आमच्या अल्गोरिदममधील पुढील मॉडेलसाठी शक्य तितकी माहिती (रंग, प्रतिबिंब, घनता) प्रदान करण्यासाठी इमेजेन वापरणे हे ध्येय आहे.
NeRF सह 3D मॉडेल तयार करणे
पुढे, Dreamfusion a म्हणून ओळखले जाणारे मॉडेल वापरते न्यूरल रेडियंस फील्ड किंवा NeRF व्युत्पन्न केलेल्या प्रतिमा संचातून 3D मॉडेल तयार करण्यासाठी. NeRF 3D प्रतिमांचा डेटासेट देऊन जटिल 2D दृश्ये तयार करण्यास सक्षम आहेत.
एनआरएफ कसे कार्य करते हे समजून घेण्याचा प्रयत्न करूया.
2D प्रतिमांच्या प्रदान केलेल्या डेटासेटमधून ऑप्टिमाइझ केलेले सतत व्हॉल्यूमेट्रिक सीन फंक्शन तयार करणे हे मॉडेलचे उद्दिष्ट आहे.
मॉडेलने फंक्शन तयार केल्यास, इनपुट आणि आउटपुट काय आहेत?
सीन फंक्शन इनपुट म्हणून 3D स्थान आणि 2D पाहण्याची दिशा घेते. फंक्शन नंतर एक रंग (RGB च्या स्वरूपात) आणि विशिष्ट घनता आउटपुट करते.
विशिष्ट दृष्टिकोनातून 2D प्रतिमा निर्माण करण्यासाठी, मॉडेल 3D पॉइंट्सचा एक संच तयार करेल आणि रंग आणि घनता घनता मूल्यांचा संच परत करण्यासाठी सीन फंक्शनद्वारे ते बिंदू चालवेल. व्हॉल्यूम रेंडरिंग तंत्र नंतर त्या मूल्यांना 2D प्रतिमा आउटपुटमध्ये रूपांतरित करेल.
NeRF आणि 2D डिफ्यूजन मॉडेल्स एकत्र वापरणे
आता आम्हाला माहित आहे की NeRF कसे कार्य करते, हे मॉडेल आमच्या व्युत्पन्न केलेल्या प्रतिमांमधून अचूक 3D मॉडेल कसे तयार करू शकते ते पाहू या.
प्रदान केलेल्या प्रत्येक मजकूर प्रॉम्प्टसाठी, DreamFusion सुरवातीपासून यादृच्छिकपणे आरंभ केलेल्या NeRF ला प्रशिक्षण देते. प्रत्येक पुनरावृत्ती गोलाकार निर्देशांकांच्या संचामध्ये यादृच्छिक कॅमेरा स्थिती निवडते. काचेच्या गोलाकारात बंद केलेल्या मॉडेलचा विचार करा. प्रत्येक वेळी आम्ही आमच्या 3D मॉडेलची एक नवीन प्रतिमा व्युत्पन्न करतो, तेव्हा आम्ही आमच्या आउटपुटचा उपयुक्त बिंदू म्हणून आमच्या क्षेत्रातील एक यादृच्छिक बिंदू निवडू. DreamFusion यादृच्छिक प्रकाश स्थिती देखील निवडेल l प्रस्तुतीकरणासाठी वापरण्यासाठी.
एकदा आमच्याकडे कॅमेरा आणि लाइट पोझिशन झाल्यावर, एक NeRF मॉडेल प्रस्तुत केले जाईल. DreamFusion यादृच्छिकपणे रंगीत रेंडर, टेक्सचरलेस रेंडर आणि कोणत्याही छायांकनाशिवाय अल्बेडोचे रेंडरिंग यापैकी निवड करेल.
आम्ही आधी नमूद केले आहे की प्रातिनिधिक नमुना तयार करण्यासाठी आमच्या मजकूर-टू-इमेज मॉडेल (इमेजन) ने पुरेशा प्रतिमा तयार करण्याची आमची इच्छा आहे.
Dreamfusion हे कसे पूर्ण करते?
इच्छित कोन साध्य करण्यासाठी Dreamfusion फक्त इनपुट प्रॉम्प्टमध्ये थोडासा बदल करते. उदाहरणार्थ, आमच्या प्रॉम्प्टवर "ओव्हरहेड व्ह्यू" जोडून आम्ही उच्च उंचीचे कोन साध्य करू शकतो. "फ्रंट व्ह्यू", "साइड व्ह्यू" आणि "बॅक व्ह्यू" सारखी वाक्ये जोडून आम्ही इतर कोन तयार करू शकतो.
यादृच्छिक कॅमेरा पोझिशनमधून दृश्ये वारंवार सादर केली जातात. हे रेंडरिंग नंतर स्कोअर डिस्टिलेशन लॉस फंक्शनमधून जातात. एक साधा ग्रेडियंट डिसेंट दृष्टीकोन हळूहळू सुधारेल 3D मॉडेल जोपर्यंत ते मजकुराने वर्णन केलेल्या दृश्याशी जुळत नाही.
एकदा आम्ही NeRF वापरून 3D मॉडेल प्रस्तुत केले की, आम्ही वापरू शकतो मार्चिंग क्यूब्स अल्गोरिदम आमच्या मॉडेलची 3D जाळी आउटपुट करण्यासाठी. ही जाळी नंतर लोकप्रिय 3D रेंडरर किंवा मॉडेलिंग सॉफ्टवेअरमध्ये आयात केली जाऊ शकते.
मर्यादा
जरी DreamFusion चे आउटपुट पुरेसे प्रभावी आहे कारण ते विद्यमान मजकूर-टू-इमेज डिफ्यूजन मॉडेल्स नवीन पद्धतीने वापरतात, संशोधकांनी काही मर्यादा लक्षात घेतल्या आहेत.
ओव्हरसॅच्युरेटेड आणि ओव्हर-स्मूथ परिणाम देण्यासाठी एसडीएस लॉस फंक्शन दिसून आले आहे. आपण हे अनैसर्गिक रंग आणि आउटपुटमध्ये आढळलेल्या अचूक तपशीलांच्या अभावामध्ये पाहू शकता.
DreamFusion अल्गोरिदम देखील इमेजेन मॉडेल आउटपुटच्या रिझोल्यूशनद्वारे मर्यादित आहे, जे 64 x 64 पिक्सेल आहे. यामुळे संश्लेषित मॉडेल्समध्ये बारीकसारीक तपशील नसतात.
शेवटी, संशोधकांनी नमूद केले आहे की 3D डेटामधून 2D मॉडेल्सचे संश्लेषण करण्यात एक अंतर्निहित आव्हान आहे. अशी अनेक संभाव्य 3D मॉडेल्स आहेत जी आम्ही 2D प्रतिमांच्या संचातून निर्माण करू शकतो, ज्यामुळे ऑप्टिमायझेशन खूप कठीण आणि अगदी संदिग्ध बनते.
निष्कर्ष
DreamFusion ची 3D रेंडरिंग्स मजकूर-टू-इमेज डिफ्यूजन मॉडेल्सची कोणतीही वस्तू किंवा दृश्य तयार करण्याच्या क्षमतेमुळे खूप चांगले कार्य करतात. न्यूरल नेटवर्क कोणत्याही 3D प्रशिक्षण डेटाशिवाय 3D अंतराळातील दृश्य कसे समजू शकते हे प्रभावी आहे. मी वाचण्याची शिफारस करतो संपूर्ण कागद DreamFusion अल्गोरिदमच्या तांत्रिक तपशीलांबद्दल अधिक जाणून घेण्यासाठी.
आशा आहे की, हे तंत्रज्ञान अखेरीस फोटो-रिअलिस्टिक 3D मॉडेल तयार करण्यासाठी सुधारेल. संपूर्ण व्हिडिओ गेम्स किंवा सिम्युलेशनची कल्पना करा जे AI-व्युत्पन्न वातावरण वापरतात. हे इमर्सिव्ह 3D जग तयार करण्यासाठी व्हिडिओ गेम डेव्हलपरसाठी प्रवेशाचा अडथळा कमी करू शकते!
भविष्यात मजकूर-ते-3डी मॉडेल्स कोणती भूमिका बजावतील असे तुम्हाला वाटते?
प्रत्युत्तर द्या