DALL-E 2 बनाम इमेजन - एआई-जनरेटेड इमेज और आर्ट

विषय - सूची[छिपाना][प्रदर्शन]

टेक्स्ट-टू-इमेज जेनरेशन क्या है?
डेल 2 क्या है?+-
- यह कैसे काम करता है?
- सीमाओं
गूगल इमेजन एआई क्या है?+-
- यह कैसे काम करता है?
डेल 2 बनाम इमेजेन का प्रदर्शन
निष्कर्ष

हाल के वर्षों में, मानव भाषा को समझने में गहन शिक्षण मॉडल अधिक प्रभावी हो गए हैं।

जैसे प्रोजेक्ट्स के बारे में सोचें GPT-3, जो अब संपूर्ण लेख और वेबसाइट बनाने में सक्षम है। GitHub ने हाल ही में पेश किया है गिटहब कोपिलॉट, एक सेवा जो केवल आपके लिए आवश्यक कोड के प्रकार का वर्णन करके संपूर्ण कोड स्निपेट प्रदान करती है।

OpenAI, Facebook और Google के शोधकर्ता एक अन्य कार्य को संभालने के लिए गहन शिक्षण का उपयोग करने के तरीकों पर काम कर रहे हैं: छवियों को कैप्शन देना। लाखों प्रविष्टियों वाले बड़े डेटासेट का उपयोग करके, वे कुछ के साथ आए हैं आश्चर्य की बात परिणाम.

हाल ही में, इन शोधकर्ताओं ने विपरीत कार्य करने की कोशिश की है: एक कैप्शन से चित्र बनाना। क्या अब विवरण से पूरी तरह से नई छवि बनाना संभव है?

यह मार्गदर्शिका दो सबसे उन्नत टेक्स्ट-टू-इमेज मॉडल का पता लगाएगी: OpenAI का DALL-E 2 और Google का इमेजन AI। इन परियोजनाओं में से प्रत्येक ने अभूतपूर्व तरीके पेश किए हैं जो समाज को बदल सकते हैं जैसा कि हम जानते हैं।

लेकिन पहले, आइए समझते हैं कि टेक्स्ट-टू-इमेज जेनरेशन से हमारा क्या मतलब है।

टेक्स्ट-टू-इमेज जेनरेशन क्या है?

टेक्स्ट-टू-इमेज मॉडल कंप्यूटर को संकेतों के आधार पर नई और अनूठी छवियां बनाने की अनुमति देता है। लोग अब उस छवि का टेक्स्ट विवरण प्रदान कर सकते हैं जिसे वे बनाना चाहते हैं, और मॉडल एक ऐसा दृश्य बनाने का प्रयास करेगा जो उस विवरण से यथासंभव निकटता से मेल खाता हो।

मशीन लर्निंग मॉडल ने प्रदर्शन को और बेहतर बनाने के लिए छवि-कैप्शन जोड़े वाले बड़े डेटासेट के उपयोग का लाभ उठाया है।

अधिकांश टेक्स्ट-टू-इमेज मॉडल ट्रांसफॉर्मर भाषा मॉडल का उपयोग करते हैं संकेतों की व्याख्या करना। इस प्रकार का मॉडल है a तंत्रिका नेटवर्क जो प्राकृतिक भाषा के संदर्भ और अर्थ अर्थ को सीखने की कोशिश करता है।

अगला, जनरेटिव मॉडल जैसे प्रसार मॉडल और जनरेटिव एडवरसैरियल नेटवर्क का उपयोग छवि संश्लेषण के लिए किया जाता है।

डेल 2 क्या है?

DALL-E 2 यथार्थवादी चित्र और कला बनाता है

दाल-ई 2 OpenAI द्वारा एक कंप्यूटर मॉडल है जिसे अप्रैल 2022 में जारी किया गया था। मॉडल को शब्दों और वाक्यांशों को छवियों से जोड़ने के लिए लाखों लेबल वाली तस्वीरों के डेटाबेस पर प्रशिक्षित किया गया था।

उपयोगकर्ता एक साधारण वाक्यांश टाइप कर सकते हैं, जैसे "लसग्ना खाने वाली बिल्ली", और DALL-E 2 वाक्यांश जो वर्णन करने का प्रयास कर रहा है उसकी अपनी व्याख्या उत्पन्न करेगा।

खरोंच से चित्र बनाने के अलावा, DALL-E 2 मौजूदा छवियों को भी संपादित कर सकता है। नीचे दिए गए उदाहरण में, DALL-E एक अतिरिक्त सोफे वाले कमरे की एक संशोधित छवि बनाने में सक्षम था।

DALL-E 2 मौजूदा छवियों को संपादित कर सकता है

DALL-E 2, OpenAI द्वारा पिछले कुछ वर्षों में जारी की गई कई समान परियोजनाओं में से एक है। OpenAI का GPT-3 तब नया बन गया जब यह अलग-अलग शैलियों का पाठ उत्पन्न करने लगा।

वर्तमान में, DALL-E 2 अभी भी बीटा परीक्षण में है। इच्छुक उपयोगकर्ता अपने लिए साइन अप कर सकते हैं प्रतीक्षा सूची और प्रवेश की प्रतीक्षा करें।

यह कैसे काम करता है?

जबकि DALL-E 2 के परिणाम प्रभावशाली हैं, आप सोच रहे होंगे कि यह सब कैसे काम करता है।

DALL-E 2, OpenAI की GPT-3 परियोजना के बहुविध कार्यान्वयन का एक उदाहरण है।

DALL-E 2 आर्किटेक्चर का अवलोकन

सबसे पहले, उपयोगकर्ता के टेक्स्ट प्रॉम्प्ट को टेक्स्ट एन्कोडर में रखा जाता है जो प्रॉम्प्ट को एक प्रतिनिधित्व स्थान पर मैप करता है। DALL-E 2 प्राकृतिक भाषा से अर्थ संबंधी जानकारी प्राप्त करने के लिए CLIP (कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग) नामक एक अन्य OpenAI मॉडल का उपयोग करता है।

अगला, एक मॉडल जिसे के रूप में जाना जाता है पूर्व टेक्स्ट एन्कोडिंग को इमेज एन्कोडिंग में मैप करता है। इस छवि एन्कोडिंग को टेक्स्ट एन्कोडिंग चरण में मिली अर्थ संबंधी जानकारी को कैप्चर करना चाहिए।

वास्तविक छवि बनाने के लिए, DALL-E 2 सिमेंटिक जानकारी और छवि एन्कोडिंग विवरण का उपयोग करके एक दृश्य उत्पन्न करने के लिए एक छवि डिकोडर का उपयोग करता है। OpenAI के एक संशोधित संस्करण का उपयोग करता है फिसलन छवि निर्माण करने के लिए मॉडल। GLIDE a . पर निर्भर करता है प्रसार मॉडल चित्र बनाने के लिए।

DALL-E 2 मॉडल में GLIDE के जुड़ने से अधिक फोटोरिअलिस्टिक आउटपुट सक्षम हुआ। चूंकि GLIDE मॉडल स्टोकेस्टिक या बेतरतीब ढंग से निर्धारित होता है, इसलिए DALL-E 2 मॉडल मॉडल को बार-बार चलाकर आसानी से विविधताएं बना सकता है।

सीमाओं

DALL-E 2 मॉडल के प्रभावशाली परिणामों के बावजूद, यह अभी भी कुछ सीमाओं का सामना कर रहा है।

वर्तनी पाठ

मॉडल साइनेज में शब्दों की वर्तनी को खराब करता है

DALL-E 2 को पाठ उत्पन्न करने का प्रयास करने वाले संकेतों से पता चलता है कि इसमें शब्दों की वर्तनी में कठिनाई होती है। विशेषज्ञ मानते हैं कि ऐसा इसलिए हो सकता है क्योंकि वर्तनी की जानकारी का हिस्सा नहीं है प्रशिक्षण प्राप्त करने वाले.

कंपोजिशन रीजनिंग

मॉडल अंतरिक्ष में वस्तुओं को रखने के साथ संघर्ष करता है

शोधकर्ताओं का मानना है कि DALL-E 2 को अभी भी कंपोजिशन रीजनिंग में कुछ कठिनाई है। सीधे शब्दों में कहें, तो मॉडल एक छवि के अलग-अलग पहलुओं को समझ सकता है, जबकि इन पहलुओं के बीच संबंधों को समझने में अभी भी परेशानी हो रही है।

उदाहरण के लिए, यदि "नीले घन के ऊपर लाल घन" संकेत दिया जाता है, तो DALL-E एक नीला घन और एक लाल घन सटीक रूप से उत्पन्न करेगा लेकिन उन्हें सही ढंग से रखने में विफल रहेगा। यह भी देखा गया है कि मॉडल को उन संकेतों के साथ कठिनाई होती है जिनके लिए विशिष्ट संख्या में वस्तुओं को निकालने की आवश्यकता होती है।

डेटासेट में पूर्वाग्रह

यदि संकेत में कोई अन्य विवरण नहीं है, तो सफेद या पश्चिमी लोगों और वातावरण को चित्रित करने के लिए DALL-E को देखा गया है। यह प्रतिनिधित्वात्मक पूर्वाग्रह डेटासेट में पश्चिमी-केंद्रित छवियों की प्रचुरता के कारण होता है।

DALL-E 2 में लैंगिक पूर्वाग्रह हैं

मॉडल को लैंगिक रूढ़ियों का पालन करने के लिए भी देखा गया है। उदाहरण के लिए, प्रॉम्प्ट में "फ्लाइट अटेंडेंट" टाइप करने से ज्यादातर महिला फ्लाइट अटेंडेंट की छवियां उत्पन्न होती हैं।

गूगल इमेजन एआई क्या है?

DALL-E 2 बनाम इमेजेन - इमेजेन वर्तनी और रचना में बेहतर है

गूगल की इमेजन एआई एक मॉडल है जिसका उद्देश्य इनपुट टेक्स्ट से फोटोरिअलिस्टिक इमेज बनाना है। DALL-E की तरह, मॉडल भी टेक्स्ट को समझने के लिए ट्रांसफॉर्मर भाषा मॉडल का उपयोग करता है और उच्च गुणवत्ता वाली छवियां बनाने के लिए प्रसार मॉडल के उपयोग पर निर्भर करता है।

इमेजेन के साथ, Google ने ड्राबेंच नामक टेक्स्ट-टू-इमेज मॉडल के लिए एक बेंचमार्क भी जारी किया है। ड्राबेंच का उपयोग करते हुए, वे यह देखने में सक्षम थे कि मानव चूहे DALL-E 2 सहित अन्य मॉडलों पर इमेजेन आउटपुट को प्राथमिकता देते हैं।

यह कैसे काम करता है?

इमेजन उच्च रिज़ॉल्यूशन कार्य करने के लिए एक प्रसार मॉडल का उपयोग करता है

DALL-E के समान, इमेजेन पहले उपयोगकर्ता प्रॉम्प्ट को फ़्रीज़ किए गए टेक्स्ट एन्कोडर के माध्यम से एम्बेडिंग टेक्स्ट में परिवर्तित करता है।

इमेजेन एक प्रसार मॉडल का उपयोग करता है जो सीखता है कि शोर के पैटर्न को छवियों में कैसे परिवर्तित किया जाए। इन छवियों का प्रारंभिक आउटपुट कम रिज़ॉल्यूशन वाला होता है और बाद में अंतिम छवि के रिज़ॉल्यूशन को बढ़ाने के लिए एक अन्य मॉडल के माध्यम से पारित किया जाता है जिसे सुपर-रिज़ॉल्यूशन डिफ्यूजन मॉडल के रूप में जाना जाता है। पहला डिफ्यूजन मॉडल 64×64 पिक्सेल इमेज को आउटपुट करता है और बाद में इसे हाई-रिज़ॉल्यूशन 1024×1024 इमेज तक उड़ा दिया जाता है।

इमेजेन टीम के शोध के आधार पर, केवल टेक्स्ट डेटा पर प्रशिक्षित बड़े फ्रोजन भाषा मॉडल अभी भी टेक्स्ट-टू-इमेज जनरेशन के लिए अत्यधिक प्रभावी टेक्स्ट एन्कोडर हैं।

अध्ययन गतिशील थ्रेशोल्डिंग की अवधारणा का भी परिचय देता है। यह विधि छवियों को उत्पन्न करते समय मार्गदर्शन भार बढ़ाकर छवियों को अधिक फोटोरिअलिस्टिक प्रदर्शित करने में सक्षम बनाती है।

डेल 2 बनाम इमेजेन का प्रदर्शन

Google के बेंचमार्क के प्रारंभिक परिणामों से पता चलता है कि मानव उत्तरदाता इमेजन द्वारा बनाई गई छवियों को DALL-E 2 और अन्य टेक्स्ट-टू-इमेज मॉडल जैसे लेटेंट डिफ्यूज़न और VQGAN+CLIP से अधिक पसंद करते हैं।

Google से DrawBench का उपयोग करके DALL-E 2 बनाम इमेजन परिणाम

इमेजेन टीम से आने वाले आउटपुट ने यह भी दिखाया है कि उनका मॉडल वर्तनी पाठ में बेहतर प्रदर्शन करता है, जो DALL-E 2 मॉडल की एक ज्ञात कमजोरी है।

हालाँकि, चूंकि Google ने अभी तक मॉडल को जनता के लिए जारी नहीं किया है, यह अभी भी देखा जाना बाकी है कि Google के बेंचमार्क कितने सटीक हैं।

निष्कर्ष

फोटोरिअलिस्टिक टेक्स्ट-टू-इमेज मॉडल का उदय विवादास्पद है क्योंकि ये मॉडल अनैतिक उपयोग के लिए परिपक्व हैं।

प्रौद्योगिकी स्पष्ट सामग्री के निर्माण या दुष्प्रचार के लिए एक उपकरण के रूप में हो सकती है। Google और OpenAI दोनों के शोधकर्ता इसके बारे में जानते हैं, यही वजह है कि ये प्रौद्योगिकियां अभी भी सभी के लिए सुलभ नहीं हैं।

टेक्स्ट-टू-इमेज मॉडल के भी महत्वपूर्ण आर्थिक निहितार्थ हैं। यदि DALL-E जैसे मॉडल मुख्यधारा बन जाते हैं तो क्या मॉडल, फोटोग्राफर और कलाकार जैसे व्यवसाय प्रभावित होंगे?

फिलहाल, इन मॉडलों की अभी भी सीमाएं हैं। किसी भी एआई-जनित छवि को जांच के लिए रखने से उसकी खामियों का पता चलेगा। OpenAI और Google दोनों के साथ सबसे प्रभावी मॉडल के लिए प्रतिस्पर्धा के साथ, वास्तव में सही आउटपुट उत्पन्न होने से पहले यह समय की बात हो सकती है: एक ऐसी छवि जो वास्तविक चीज़ से अप्रभेद्य है।

आपको क्या लगता है जब तकनीक इतनी आगे चली जाएगी तो क्या होगा?

DALL-E 2 बनाम इमेजन - AI-जनरेटेड इमेज और आर्ट

टेक्स्ट-टू-इमेज जेनरेशन क्या है?

डेल 2 क्या है?

यह कैसे काम करता है?

सीमाओं

गूगल इमेजन एआई क्या है?

यह कैसे काम करता है?

डेल 2 बनाम इमेजेन का प्रदर्शन

निष्कर्ष

About डियोन मेनोर

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

कोलोसियन बनाम हेजेन

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है

DALL-E 2 बनाम इमेजन - AI-जनरेटेड इमेज और आर्ट

टेक्स्ट-टू-इमेज जेनरेशन क्या है?

डेल 2 क्या है?

यह कैसे काम करता है?

सीमाओं

गूगल इमेजन एआई क्या है?

यह कैसे काम करता है?

डेल 2 बनाम इमेजेन का प्रदर्शन

निष्कर्ष

About डियोन मेनोर

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

सोशल मीडिया के लिए 10 सर्वश्रेष्ठ एआई उपकरण

कोलोसियन बनाम हेजेन

10 सर्वश्रेष्ठ एआई एनिमेटेड वीडियो निर्माता उपकरण

रीडर सहभागिता

एक जवाब लिखें उत्तर रद्द करे

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है