अनुक्रमणिका[लपवा][दाखवा]
नवीन आणि सुधारित AI ने क्षमता, आकलन आणि उच्च-रिझोल्यूशन प्रतिमा तयार करण्याची क्षमता सुधारली आहे. इंटरनेटवर फिरत असलेल्या काही विचित्र आणि मनोरंजक प्रतिमा तुम्हाला अलीकडे आल्या असतील.
शिबा इनू कुत्रा बेरेट आणि काळ्या टर्टलनेकमध्ये परिधान केलेला आहे. आणि डच चित्रकार वर्मीरच्या “गर्ल विथ अ पर्ल इयरिंग” च्या रीतीने समुद्र ओटर. आणि एक कप सूप आहे जो लोकरीच्या राक्षसासारखा दिसतो.
या प्रतिमा मानवी कलाकाराने तयार केलेले नाही.
त्याऐवजी, DALL-E 2, एक नवीन AI प्रणाली जी मजकूर वर्णन प्रतिमांमध्ये रूपांतरित करू शकते, ती तयार केली.
तुम्हाला काय पहायचे आहे ते फक्त लिहा आणि AI तुमच्यासाठी ते तयार करेल – ज्वलंत तपशिलात, उत्तम दर्जात आणि काही बाबतीत, अस्सल कल्पकता. या पोस्टमध्ये, आम्ही OpenAI च्या नवीनतम अभ्यास, DALL.E 2, तसेच ते कसे कार्य करते आणि बरेच काही यावर सखोल नजर टाकू. चला सुरू करुया.
तर, नक्की काय आहे DALL.E 2?
DALL-E 2 हे “जनरेटिव्ह मॉडेल” आहे, एक प्रकारचे मशीन लर्निंग अल्गोरिदम जे इनपुट डेटावर अंदाज किंवा वर्गीकरण कार्य करण्याऐवजी क्लिष्ट आउटपुट तयार करते.
तुम्ही लेखी वर्णनासह DALL-E 2 प्रदान करता आणि ते त्याच्याशी जुळणारे चित्र तयार करते. संकल्पना, गुण आणि शैली एकत्र करून, OpenAI चे DALLE 2 मूलभूत भाषिक वर्णनातून नाविन्यपूर्ण, वास्तववादी ग्राफिक्स आणि कला तयार करू शकते.
नवीनतम आवृत्ती, DALLE 2, अधिक बहुमुखी असल्याचे म्हटले जाते, उच्च रिझोल्यूशनवर आणि सर्जनशील शैलीच्या विस्तृत स्पेक्ट्रममध्ये मथळ्यांमधून चित्रे बनविण्यास सक्षम आहे. उदाहरणार्थ, खालील चित्रे (DALL-E 2 ब्लॉग पोस्टवरून) "घोड्यावर स्वार झालेला अंतराळवीर" या वर्णनाने तयार केली आहेत.
एक वर्णन, “पेन्सिल स्केचप्रमाणे”, तर दुसरे निष्कर्ष, “फोटोरिअलिस्टिक पद्धतीने” समाप्त होते.
हे आश्चर्यकारक अचूकतेसह विद्यमान छायाचित्रे देखील बदलू शकते. त्यामुळे, मूळ प्रतिमेचे स्वरूप राखून तुम्ही रंग, प्रतिबिंब आणि सावल्या ठेवताना घटक जोडू किंवा हटवू शकता.
हे कस काम करत?
DALL-E 2 CLIP आणि डिफ्यूजन मॉडेल्सचा वापर करते, दोन अत्याधुनिक खोल शिकणे अलिकडच्या वर्षांत विकसित केलेले दृष्टिकोन. तथापि, ते इतर सर्व खोलांप्रमाणेच समान कल्पनेवर आधारित आहे न्यूरल नेटवर्क: प्रतिनिधित्व शिक्षण. CLIP एकाच वेळी दोन प्रशिक्षित करते न्यूरल नेटवर्क चित्रे आणि मथळ्यांवर.
एक नेटवर्क चित्रातील व्हिज्युअल प्रेझेंटेशन शिकते, तर दुसरे नेटवर्क मजकूराचे प्रतिनिधित्व शिकते. प्रशिक्षणादरम्यान, दोन नेटवर्क त्यांच्या पॅरामीटर्समध्ये बदल करण्याचा प्रयत्न करतात जेणेकरून तुलनात्मक चित्रे आणि वर्णन समान एम्बेडिंगमध्ये परिणाम करतात.
“डिफ्यूजन”, एक प्रकारचे जनरेटिव्ह मॉडेल जे त्याचे प्रशिक्षण नमुने हळूहळू आवाज करून आणि नकार देऊन चित्रे बनवायला शिकतात, हा DALL-E 2 मध्ये वापरला जाणारा दुसरा मशीन लर्निंग दृष्टीकोन आहे. डिफ्यूजन मॉडेल ऑटोएनकोडर्ससारखेच असतात कारण ते इनपुट डेटाचे रूपांतर करतात. एम्बेडिंग प्रतिनिधित्व आणि नंतर मूळ डेटा पुन्हा तयार करण्यासाठी एम्बेडिंग माहिती वापरा.
ओपनएआय वापरणे भाषा मॉडेल CLIP, जे मजकूर वर्णनांना छायाचित्रांसह जोडू शकते, ते प्रथम लिखित प्रॉम्प्टचे एका इंटरमीडिएट फॉर्ममध्ये भाषांतर करते ज्यामध्ये महत्त्वपूर्ण गुणधर्म समाविष्ट केले जातात जे चित्र त्या प्रॉम्प्टशी जुळले पाहिजे (CLIP नुसार).
दुसरे, DALL-E 2 CLIP-अनुरूप तयार करते प्रसार मॉडेल वापरून प्रतिमा, जे एक न्यूरल नेटवर्क आहे.
यादृच्छिक पिक्सेलसह विकृत फोटोंवर, प्रसार मॉडेल शिकले जातात. ते फोटोंचे मूळ स्वरूप कसे पुनर्संचयित करायचे ते शिकतात. डिफ्यूजन मॉडेल्स उच्च-गुणवत्तेच्या कृत्रिम प्रतिमा तयार करू शकतात, विशेषत: जेव्हा विविधतेपेक्षा अचूकतेला प्राधान्य देणार्या मार्गदर्शक दृष्टिकोनासह वापरला जातो.
परिणामी, प्रसार मॉडेल यादृच्छिक पिक्सेल घेते आणि शब्द प्रॉम्प्टशी जुळणाऱ्या नवीन प्रतिमेमध्ये रूपांतरित करण्यासाठी CLIP वापरते. प्रसार संकल्पनेमुळे, DALL-E 2 DALL-E पेक्षा अधिक वेगाने उच्च-रिझोल्यूशन प्रतिमा तयार करू शकते.
DALL.E 2 वापर केस
गेल्या वीस वर्षांत, संगणक दृष्टी तंत्रज्ञानाने एका साध्या कल्पनेपासून मोठ्या प्रगतीपर्यंत प्रगती केली आहे. या प्रगती असूनही, चित्र आणि वस्तू ओळखण्याचे मॉडेल अजूनही दैनंदिन जीवनात महत्त्वपूर्ण अडथळ्यांना तोंड देत आहेत. डेटासेटची अनुपस्थिती ही प्रतिमा ओळखणे आणि संगणकाच्या दृष्टीची सर्वात लक्षणीय कमतरता आहे. दोन्ही बाजूंनी डेटाची कमतरता असल्यामुळे, 100 टक्के अचूक परिणाम देण्यासाठी प्रतिमा ओळखण्याचे मॉडेल प्रशिक्षण देणे जवळजवळ कठीण आहे.
सुदैवाने, OpenAI चे नवीन मशीन लर्निंग मॉडेल तंत्रज्ञानातील अंतर भरून काढू शकते. DALLE 2 मजकूर वर्णनावर आधारित आश्चर्यकारक चित्रे निर्माण करण्यास सक्षम आहे. हे बनावट चित्र उत्पादन त्यांच्या आवश्यकतांवर आधारित प्रतिमा ओळख मॉडेलना डेटा प्रदान करू शकते. वस्तू आणि चित्र ओळखण्यासाठी डेटाची अनुपस्थिती ही एक महत्त्वपूर्ण अडचण आहे.
डिजिटल युगात, डेटासेट सर्वव्यापी आहेत, तरीही आम्ही AI मॉडेलला फीड करण्यासाठी शॉर्टकट शोधत आहोत, जेणेकरून ते चांगले परिणाम देऊ शकेल. तथापि, प्रतिमा ओळखण्याचे मॉडेल प्रशिक्षित करणे सोपे नाही. याला थोड्या फरकांसह मोठ्या संख्येने डेटा सेट आवश्यक आहेत, जे कदाचित आम्ही फक्त पुनर्प्राप्त करू शकलो नसतो.
तर, उत्तर काय आहे: उत्तर आहे DALLE 2. ओपनएआय पिक्चर जनरेटर, मजकूरांमधून प्रतिमा तयार करण्याची आणि विद्यमान प्रतिमा बदलण्याच्या क्षमतेसह, अंतर भरण्यास मदत करू शकते. हे अतिरिक्त प्रशिक्षण डेटा तयार करण्यात मदत करेल आणि आवश्यक मानवी लेबलिंगचे प्रमाण देखील कमी करेल. महत्त्वपूर्ण फायदा असूनही, आपण फसव्या प्रतिमा निर्मिती आणि समावेश वगळणाऱ्या प्रतिमांबद्दल जागरूक असले पाहिजे. यामुळे प्रतिमा शोधण्याच्या पद्धतींमुळे पक्षपाती परिणाम मिळू शकतात.
मर्यादा
OpenAI नुसार DALL.E 2 चुकीच्या हातात पडल्यास त्याचा हानिकारक प्रभाव पडू शकतो. आजच्या खोल बनावटीच्या जगात, मॉडेलचा वापर चुकीची माहिती किंवा वर्णद्वेषी प्रतिमा पसरवण्यासाठी सहज केला जाऊ शकतो, म्हणूनच OpenAI विकासकांना केवळ आमंत्रणाद्वारे DALL.2 वापरण्याची परवानगी देते. मॉडेलने तिला मिळालेल्या सर्व सूचनांसाठी कठोर सामग्री प्रतिबंधाचे पालन केले पाहिजे.
DALL.E 2 ची कोणतीही प्रतिकूल किंवा हिंसक चित्रे तयार करण्याची क्षमता वगळण्यासाठी, डेटासेट कोणत्याही प्राणघातक शस्त्राशिवाय तयार केला गेला. OpenAI ने सांगितले आहे की भविष्यात ते API मध्ये रूपांतरित करण्याची त्यांची योजना आहे, DALL.E 2 च्या बाबतीत, ते सावधगिरीने पुढे जाण्यास इच्छुक आहे.
निष्कर्ष
DALL-E 2 हा आणखी एक मनोरंजक OpenAI संशोधन शोध आहे जो नवीन अनुप्रयोगांसाठी दरवाजा उघडतो.
एक उदाहरण म्हणजे कॉम्प्युटर व्हिजनच्या मुख्य अडथळ्यांपैकी एक पूर्ण करण्यासाठी प्रचंड डेटासेट तयार करणे-डेटा. अनेक DALL-E-आधारित अॅप्सचे आर्थिक प्रकरण OpenAI ने त्याच्या API वापरकर्त्यांसाठी स्थापित केलेल्या किंमती आणि धोरणांद्वारे निश्चित केले जाईल, परंतु ते सर्व चित्र उत्पादन निःसंशयपणे वाढवतील.
प्रत्युत्तर द्या