DALL.E 2 - टेक्स्ट का उपयोग करके अपने विचारों को दृश्यों में बदलें

विषय - सूची[छिपाना][प्रदर्शन]

तो, वास्तव में DALL.E 2 क्या है?
यह कैसे काम करता है?
DALL.E 2 उपयोग का मामला
सीमाओं
निष्कर्ष

नए और बेहतर एआई ने क्षमताओं, समझ और उच्च-रिज़ॉल्यूशन वाली छवियां बनाने की क्षमता में सुधार किया है। आपने हाल ही में इंटरनेट पर कुछ अजीब और मनोरंजक तस्वीरें देखी होंगी।

शीबा इनु कुत्ते को टोपी और काले रंग का टर्टलनेक पहनाया गया है। और डच चित्रकार वर्मीर की "गर्ल विद ए पर्ल ईयररिंग" की शैली में एक समुद्री ऊदबिलाव। और सूप का एक कप है जो ऊनी राक्षस जैसा दिखता है।

ये छवियाँ किसी मानव कलाकार द्वारा नहीं बनाए गए थे।

इसके बजाय, DALL-E 2, एक नई AI प्रणाली जो पाठ्य विवरणों को छवियों में परिवर्तित कर सकती है, ने उन्हें बनाया।

आप जो देखना चाहते हैं उसे बस लिख लें और एआई इसे आपके लिए बना देगा - विशद विवरण, बेहतरीन गुणवत्ता और, कुछ मामलों में, वास्तविक आविष्कारशीलता के साथ। इस पोस्ट में, हम OpenAI के नवीनतम अध्ययन, DALL.E 2, साथ ही यह कैसे काम करता है, और भी बहुत कुछ पर गहराई से नज़र डालेंगे। आएँ शुरू करें।

तो, वास्तव में क्या है डीएएलई 2?

DALL-E 2 एक "जेनरेटिव मॉडल" है, एक प्रकार का मशीन लर्निंग एल्गोरिदम जो इनपुट डेटा पर भविष्यवाणी या वर्गीकरण कार्य करने के बजाय जटिल आउटपुट उत्पन्न करता है।

आप DALL-E 2 को एक लिखित विवरण प्रदान करते हैं, और यह उसके अनुरूप एक चित्र बनाता है। अवधारणाओं, गुणों और शैलियों को मिलाकर, OpenAI का DALLE 2 एक बुनियादी भाषाई विवरण से नवीन, यथार्थवादी ग्राफिक्स और कला का उत्पादन कर सकता है।

नवीनतम संस्करण, DALLE 2, को अधिक बहुमुखी कहा जाता है, जो उच्च रिज़ॉल्यूशन पर और रचनात्मक शैलियों के व्यापक स्पेक्ट्रम में कैप्शन से चित्र बनाने में सक्षम है। उदाहरण के लिए, नीचे दी गई तस्वीरें (DALL-E 2 ब्लॉग पोस्ट से) "घोड़े पर सवार एक अंतरिक्ष यात्री" विवरण द्वारा बनाई गई हैं।

एक विवरण का समापन होता है, "एक पेंसिल स्केच की तरह," जबकि दूसरे का समापन होता है, "फोटोरियलिस्टिक तरीके से।"

घोड़े पर सवार अंतरिक्ष यात्री

यह आश्चर्यजनक सटीकता के साथ मौजूदा तस्वीरों को भी बदल सकता है। इसलिए, आप मूल छवि के स्वरूप को बनाए रखते हुए रंग, प्रतिबिंब और छाया रखते हुए तत्वों को जोड़ या हटा सकते हैं।

यह कैसे काम करता है?

DALL-E 2 दो परिष्कृत CLIP और प्रसार मॉडल का उपयोग करता है ध्यान लगा के पढ़ना या सीखना हाल के वर्षों में दृष्टिकोण विकसित हुए। हालाँकि, यह अन्य सभी गहनों जैसी ही धारणा पर आधारित है तंत्रिका - तंत्र: प्रतिनिधित्व सीखना. CLIP एक साथ दो को प्रशिक्षित करता है तंत्रिका जाल चित्रों और कैप्शन पर.

एक नेटवर्क चित्र में दृश्य प्रतिनिधित्व सीखता है, जबकि दूसरा पाठ प्रतिनिधित्व सीखता है। प्रशिक्षण के दौरान, दोनों नेटवर्क अपने मापदंडों को संशोधित करने का प्रयास करते हैं ताकि तुलनीय चित्र और विवरण समान एम्बेडिंग में परिणत हों।

"डिफ्यूजन", एक प्रकार का जेनरेटिव मॉडल जो अपने प्रशिक्षण नमूनों को धीरे-धीरे शोर और निरूपित करके चित्र बनाना सीखता है, DALL-E 2 में उपयोग किया जाने वाला अन्य मशीन लर्निंग दृष्टिकोण है। डिफ्यूजन मॉडल ऑटोएनकोडर के समान हैं जिसमें वे इनपुट डेटा को एक एम्बेडिंग प्रतिनिधित्व में बदलते हैं और फिर मूल डेटा को फिर से बनाने के लिए एम्बेडिंग जानकारी का उपयोग करते हैं।

DALL.E2 कार्य कर रहा है

OpenAI's का उपयोग करना भाषा मॉडल CLIP, जो पाठ्य विवरणों को तस्वीरों के साथ जोड़ सकता है, यह पहले लिखित संकेत को एक मध्यवर्ती रूप में अनुवादित करता है जो महत्वपूर्ण गुणों को शामिल करता है जो एक तस्वीर को उस संकेत से मेल खाना चाहिए (CLIP के अनुसार)।

दूसरा, DALL-E 2 एक CLIP-संगत बनाता है प्रसार मॉडल का उपयोग कर छवि, जो एक तंत्रिका नेटवर्क है।

यादृच्छिक पिक्सेल के साथ विकृत तस्वीरों पर, प्रसार मॉडल सीखे जाते हैं। वे सीखते हैं कि फ़ोटो के मूल स्वरूप को कैसे पुनर्स्थापित किया जाए। प्रसार मॉडल उच्च-गुणवत्ता वाली सिंथेटिक छवियां उत्पन्न कर सकते हैं, खासकर जब एक मार्गदर्शक दृष्टिकोण के साथ संयोजन में उपयोग किया जाता है जो विविधता पर सटीकता को प्राथमिकता देता है।

परिणामस्वरूप, ए प्रसार मॉडल यादृच्छिक पिक्सेल लेता है और उन्हें एक नई छवि में बदलने के लिए CLIP का उपयोग करता है जो वर्ड प्रॉम्प्ट से मेल खाता है। प्रसार अवधारणा के कारण, DALL-E 2, DALL-E की तुलना में तेजी से उच्च-रिज़ॉल्यूशन वाली छवियां उत्पन्न कर सकता है।

DALL.E 2 उपयोग का मामला

पिछले बीस वर्षों में, कंप्यूटर दृष्टि प्रौद्योगिकी एक साधारण धारणा से एक बड़ी सफलता की ओर बढ़ गई है। इन प्रगति के बावजूद, चित्र और वस्तु पहचान मॉडल अभी भी रोजमर्रा की जिंदगी में महत्वपूर्ण बाधाओं का सामना करते हैं। डेटासेट की अनुपस्थिति छवि पहचान और कंप्यूटर दृष्टि की सबसे महत्वपूर्ण कमियों में से एक है। क्योंकि दोनों सिरों पर डेटा की कमी है, 100 प्रतिशत सटीक परिणाम देने के लिए छवि पहचान मॉडल को प्रशिक्षित करना लगभग कठिन है।

सौभाग्य से, OpenAI का नया मशीन लर्निंग मॉडल प्रौद्योगिकी में अंतर को पाट सकता है। DALLE 2 पाठ विवरण के आधार पर अद्भुत चित्र बनाने में सक्षम है। यह नकली चित्र उत्पादन छवि पहचान मॉडल को उनकी आवश्यकताओं के आधार पर डेटा प्रदान कर सकता है। डेटा की अनुपस्थिति वस्तु और चित्र पहचान के लिए एक महत्वपूर्ण बाधा है।

डिजिटल युग में, डेटासेट सर्वव्यापी हैं, फिर भी हम अभी भी एआई मॉडल को फीड करने के लिए शॉर्टकट की तलाश कर रहे हैं, ताकि यह अच्छे परिणाम प्रदान कर सके। हालाँकि, छवि पहचान मॉडल को प्रशिक्षित करना आसान नहीं है। इसके लिए थोड़े अंतर के साथ बड़ी संख्या में डेटा सेट की आवश्यकता होती है, जिसे हम आसानी से पुनर्प्राप्त करने में सक्षम नहीं हो सकते हैं।

तो, उत्तर क्या है: उत्तर DALLE 2 है। OpenAI चित्र जनरेटर, पाठ से चित्र बनाने और मौजूदा चित्रों को बदलने की अपनी क्षमता के साथ, अंतर को पाटने में मदद कर सकता है। इससे अतिरिक्त प्रशिक्षण डेटा तैयार करने में मदद मिलेगी और साथ ही आवश्यक मानव लेबलिंग की मात्रा भी कम होगी। महत्वपूर्ण लाभ के बावजूद, आपको धोखाधड़ी वाली छवि प्रस्तुतियों और समावेशन को बाहर करने वाली छवियों से अवगत रहना चाहिए। इससे छवि पहचान विधियां पक्षपाती परिणाम उत्पन्न कर सकती हैं।

सीमाओं

OpenAI के अनुसार, DALL.E 2 गलत हाथों में पड़ने पर हानिकारक प्रभाव डाल सकता है। आज की गहरी नकली दुनिया में, मॉडल का उपयोग आसानी से झूठी जानकारी या नस्लवादी कल्पना फैलाने के लिए किया जा सकता है, यही कारण है कि OpenAI केवल डेवलपर्स को आमंत्रण द्वारा DALL.2 का उपयोग करने की अनुमति देता है। मॉडल को उसे मिलने वाले सभी सुझावों के लिए कठोर सामग्री प्रतिबंध का पालन करना होगा।

DALL.E 2 द्वारा किसी भी शत्रुतापूर्ण या हिंसक चित्र बनाने की क्षमता को बाहर करने के लिए, डेटासेट बिना किसी घातक हथियार के बनाया गया था। जबकि OpenAI ने कहा है कि वह भविष्य में इसे API में बदलने की योजना बना रहा है, DALL.E 2 के मामले में, वह सावधानी के साथ आगे बढ़ने को तैयार है।

निष्कर्ष

DALL-E 2 एक और दिलचस्प OpenAI अनुसंधान खोज है जो नए अनुप्रयोगों के द्वार खोलती है।

एक उदाहरण कंप्यूटर विज़न की मुख्य बाधाओं में से एक - डेटा - को पूरा करने के लिए बड़े पैमाने पर डेटासेट बनाना है। जबकि कई DALL-E-आधारित ऐप्स का आर्थिक मामला उस कीमत और नीतियों द्वारा निर्धारित किया जाएगा जो OpenAI अपने एपीआई उपयोगकर्ताओं के लिए स्थापित करता है, वे सभी निस्संदेह चित्र उत्पादन को आगे बढ़ाएंगे।

DALL.E 2 - टेक्स्ट का उपयोग करके अपने विचारों को विजुअल में बदलें

तो, वास्तव में क्या है डीएएलई 2?

यह कैसे काम करता है?

DALL.E 2 उपयोग का मामला

सीमाओं

निष्कर्ष

About नीलकंठ

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

कोलोसियन बनाम हेजेन

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है

DALL.E 2 - टेक्स्ट का उपयोग करके अपने विचारों को विजुअल में बदलें

तो, वास्तव में क्या है डीएएलई 2?

यह कैसे काम करता है?

DALL.E 2 उपयोग का मामला

सीमाओं

निष्कर्ष

About नीलकंठ

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

सोशल मीडिया के लिए 10 सर्वश्रेष्ठ एआई उपकरण

कोलोसियन बनाम हेजेन

10 सर्वश्रेष्ठ एआई एनिमेटेड वीडियो निर्माता उपकरण

रीडर सहभागिता

एक जवाब लिखें उत्तर रद्द करे

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है