हाल के वर्षों में, मानव भाषा को समझने में गहन शिक्षण मॉडल अधिक प्रभावी हो गए हैं।
जैसे प्रोजेक्ट्स के बारे में सोचें GPT-3, जो अब संपूर्ण लेख और वेबसाइट बनाने में सक्षम है। GitHub ने हाल ही में पेश किया है गिटहब कोपिलॉट, एक सेवा जो केवल आपके लिए आवश्यक कोड के प्रकार का वर्णन करके संपूर्ण कोड स्निपेट प्रदान करती है।
OpenAI, Facebook और Google के शोधकर्ता एक अन्य कार्य को संभालने के लिए गहन शिक्षण का उपयोग करने के तरीकों पर काम कर रहे हैं: छवियों को कैप्शन देना। लाखों प्रविष्टियों वाले बड़े डेटासेट का उपयोग करके, वे कुछ के साथ आए हैं आश्चर्य की बात परिणाम.
हाल ही में, इन शोधकर्ताओं ने विपरीत कार्य करने की कोशिश की है: एक कैप्शन से चित्र बनाना। क्या अब विवरण से पूरी तरह से नई छवि बनाना संभव है?
यह मार्गदर्शिका दो सबसे उन्नत टेक्स्ट-टू-इमेज मॉडल का पता लगाएगी: OpenAI का DALL-E 2 और Google का इमेजन AI। इन परियोजनाओं में से प्रत्येक ने अभूतपूर्व तरीके पेश किए हैं जो समाज को बदल सकते हैं जैसा कि हम जानते हैं।
लेकिन पहले, आइए समझते हैं कि टेक्स्ट-टू-इमेज जेनरेशन से हमारा क्या मतलब है।
टेक्स्ट-टू-इमेज जेनरेशन क्या है?
टेक्स्ट-टू-इमेज मॉडल कंप्यूटर को संकेतों के आधार पर नई और अनूठी छवियां बनाने की अनुमति देता है। लोग अब उस छवि का टेक्स्ट विवरण प्रदान कर सकते हैं जिसे वे बनाना चाहते हैं, और मॉडल एक ऐसा दृश्य बनाने का प्रयास करेगा जो उस विवरण से यथासंभव निकटता से मेल खाता हो।
मशीन लर्निंग मॉडल ने प्रदर्शन को और बेहतर बनाने के लिए छवि-कैप्शन जोड़े वाले बड़े डेटासेट के उपयोग का लाभ उठाया है।
अधिकांश टेक्स्ट-टू-इमेज मॉडल ट्रांसफॉर्मर भाषा मॉडल का उपयोग करते हैं संकेतों की व्याख्या करना। इस प्रकार का मॉडल है a तंत्रिका नेटवर्क जो प्राकृतिक भाषा के संदर्भ और अर्थ अर्थ को सीखने की कोशिश करता है।
अगला, जनरेटिव मॉडल जैसे प्रसार मॉडल और जनरेटिव एडवरसैरियल नेटवर्क का उपयोग छवि संश्लेषण के लिए किया जाता है।
डेल 2 क्या है?
दाल-ई 2 OpenAI द्वारा एक कंप्यूटर मॉडल है जिसे अप्रैल 2022 में जारी किया गया था। मॉडल को शब्दों और वाक्यांशों को छवियों से जोड़ने के लिए लाखों लेबल वाली तस्वीरों के डेटाबेस पर प्रशिक्षित किया गया था।
उपयोगकर्ता एक साधारण वाक्यांश टाइप कर सकते हैं, जैसे "लसग्ना खाने वाली बिल्ली", और DALL-E 2 वाक्यांश जो वर्णन करने का प्रयास कर रहा है उसकी अपनी व्याख्या उत्पन्न करेगा।
खरोंच से चित्र बनाने के अलावा, DALL-E 2 मौजूदा छवियों को भी संपादित कर सकता है। नीचे दिए गए उदाहरण में, DALL-E एक अतिरिक्त सोफे वाले कमरे की एक संशोधित छवि बनाने में सक्षम था।
DALL-E 2, OpenAI द्वारा पिछले कुछ वर्षों में जारी की गई कई समान परियोजनाओं में से एक है। OpenAI का GPT-3 तब नया बन गया जब यह अलग-अलग शैलियों का पाठ उत्पन्न करने लगा।
वर्तमान में, DALL-E 2 अभी भी बीटा परीक्षण में है। इच्छुक उपयोगकर्ता अपने लिए साइन अप कर सकते हैं प्रतीक्षा सूची और प्रवेश की प्रतीक्षा करें।
यह कैसे काम करता है?
जबकि DALL-E 2 के परिणाम प्रभावशाली हैं, आप सोच रहे होंगे कि यह सब कैसे काम करता है।
DALL-E 2, OpenAI की GPT-3 परियोजना के बहुविध कार्यान्वयन का एक उदाहरण है।
सबसे पहले, उपयोगकर्ता के टेक्स्ट प्रॉम्प्ट को टेक्स्ट एन्कोडर में रखा जाता है जो प्रॉम्प्ट को एक प्रतिनिधित्व स्थान पर मैप करता है। DALL-E 2 प्राकृतिक भाषा से अर्थ संबंधी जानकारी प्राप्त करने के लिए CLIP (कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग) नामक एक अन्य OpenAI मॉडल का उपयोग करता है।
अगला, एक मॉडल जिसे के रूप में जाना जाता है पूर्व टेक्स्ट एन्कोडिंग को इमेज एन्कोडिंग में मैप करता है। इस छवि एन्कोडिंग को टेक्स्ट एन्कोडिंग चरण में मिली अर्थ संबंधी जानकारी को कैप्चर करना चाहिए।
वास्तविक छवि बनाने के लिए, DALL-E 2 सिमेंटिक जानकारी और छवि एन्कोडिंग विवरण का उपयोग करके एक दृश्य उत्पन्न करने के लिए एक छवि डिकोडर का उपयोग करता है। OpenAI के एक संशोधित संस्करण का उपयोग करता है फिसलन छवि निर्माण करने के लिए मॉडल। GLIDE a . पर निर्भर करता है प्रसार मॉडल चित्र बनाने के लिए।
DALL-E 2 मॉडल में GLIDE के जुड़ने से अधिक फोटोरिअलिस्टिक आउटपुट सक्षम हुआ। चूंकि GLIDE मॉडल स्टोकेस्टिक या बेतरतीब ढंग से निर्धारित होता है, इसलिए DALL-E 2 मॉडल मॉडल को बार-बार चलाकर आसानी से विविधताएं बना सकता है।
सीमाओं
DALL-E 2 मॉडल के प्रभावशाली परिणामों के बावजूद, यह अभी भी कुछ सीमाओं का सामना कर रहा है।
वर्तनी पाठ
DALL-E 2 को पाठ उत्पन्न करने का प्रयास करने वाले संकेतों से पता चलता है कि इसमें शब्दों की वर्तनी में कठिनाई होती है। विशेषज्ञ मानते हैं कि ऐसा इसलिए हो सकता है क्योंकि वर्तनी की जानकारी का हिस्सा नहीं है प्रशिक्षण प्राप्त करने वाले.
कंपोजिशन रीजनिंग
शोधकर्ताओं का मानना है कि DALL-E 2 को अभी भी कंपोजिशन रीजनिंग में कुछ कठिनाई है। सीधे शब्दों में कहें, तो मॉडल एक छवि के अलग-अलग पहलुओं को समझ सकता है, जबकि इन पहलुओं के बीच संबंधों को समझने में अभी भी परेशानी हो रही है।
उदाहरण के लिए, यदि "नीले घन के ऊपर लाल घन" संकेत दिया जाता है, तो DALL-E एक नीला घन और एक लाल घन सटीक रूप से उत्पन्न करेगा लेकिन उन्हें सही ढंग से रखने में विफल रहेगा। यह भी देखा गया है कि मॉडल को उन संकेतों के साथ कठिनाई होती है जिनके लिए विशिष्ट संख्या में वस्तुओं को निकालने की आवश्यकता होती है।
डेटासेट में पूर्वाग्रह
यदि संकेत में कोई अन्य विवरण नहीं है, तो सफेद या पश्चिमी लोगों और वातावरण को चित्रित करने के लिए DALL-E को देखा गया है। यह प्रतिनिधित्वात्मक पूर्वाग्रह डेटासेट में पश्चिमी-केंद्रित छवियों की प्रचुरता के कारण होता है।
मॉडल को लैंगिक रूढ़ियों का पालन करने के लिए भी देखा गया है। उदाहरण के लिए, प्रॉम्प्ट में "फ्लाइट अटेंडेंट" टाइप करने से ज्यादातर महिला फ्लाइट अटेंडेंट की छवियां उत्पन्न होती हैं।
गूगल इमेजन एआई क्या है?
गूगल की इमेजन एआई एक मॉडल है जिसका उद्देश्य इनपुट टेक्स्ट से फोटोरिअलिस्टिक इमेज बनाना है। DALL-E की तरह, मॉडल भी टेक्स्ट को समझने के लिए ट्रांसफॉर्मर भाषा मॉडल का उपयोग करता है और उच्च गुणवत्ता वाली छवियां बनाने के लिए प्रसार मॉडल के उपयोग पर निर्भर करता है।
इमेजेन के साथ, Google ने ड्राबेंच नामक टेक्स्ट-टू-इमेज मॉडल के लिए एक बेंचमार्क भी जारी किया है। ड्राबेंच का उपयोग करते हुए, वे यह देखने में सक्षम थे कि मानव चूहे DALL-E 2 सहित अन्य मॉडलों पर इमेजेन आउटपुट को प्राथमिकता देते हैं।
यह कैसे काम करता है?
DALL-E के समान, इमेजेन पहले उपयोगकर्ता प्रॉम्प्ट को फ़्रीज़ किए गए टेक्स्ट एन्कोडर के माध्यम से एम्बेडिंग टेक्स्ट में परिवर्तित करता है।
इमेजेन एक प्रसार मॉडल का उपयोग करता है जो सीखता है कि शोर के पैटर्न को छवियों में कैसे परिवर्तित किया जाए। इन छवियों का प्रारंभिक आउटपुट कम रिज़ॉल्यूशन वाला होता है और बाद में अंतिम छवि के रिज़ॉल्यूशन को बढ़ाने के लिए एक अन्य मॉडल के माध्यम से पारित किया जाता है जिसे सुपर-रिज़ॉल्यूशन डिफ्यूजन मॉडल के रूप में जाना जाता है। पहला डिफ्यूजन मॉडल 64×64 पिक्सेल इमेज को आउटपुट करता है और बाद में इसे हाई-रिज़ॉल्यूशन 1024×1024 इमेज तक उड़ा दिया जाता है।
इमेजेन टीम के शोध के आधार पर, केवल टेक्स्ट डेटा पर प्रशिक्षित बड़े फ्रोजन भाषा मॉडल अभी भी टेक्स्ट-टू-इमेज जनरेशन के लिए अत्यधिक प्रभावी टेक्स्ट एन्कोडर हैं।
अध्ययन गतिशील थ्रेशोल्डिंग की अवधारणा का भी परिचय देता है। यह विधि छवियों को उत्पन्न करते समय मार्गदर्शन भार बढ़ाकर छवियों को अधिक फोटोरिअलिस्टिक प्रदर्शित करने में सक्षम बनाती है।
डेल 2 बनाम इमेजेन का प्रदर्शन
Google के बेंचमार्क के प्रारंभिक परिणामों से पता चलता है कि मानव उत्तरदाता इमेजन द्वारा बनाई गई छवियों को DALL-E 2 और अन्य टेक्स्ट-टू-इमेज मॉडल जैसे लेटेंट डिफ्यूज़न और VQGAN+CLIP से अधिक पसंद करते हैं।
इमेजेन टीम से आने वाले आउटपुट ने यह भी दिखाया है कि उनका मॉडल वर्तनी पाठ में बेहतर प्रदर्शन करता है, जो DALL-E 2 मॉडल की एक ज्ञात कमजोरी है।
हालाँकि, चूंकि Google ने अभी तक मॉडल को जनता के लिए जारी नहीं किया है, यह अभी भी देखा जाना बाकी है कि Google के बेंचमार्क कितने सटीक हैं।
निष्कर्ष
फोटोरिअलिस्टिक टेक्स्ट-टू-इमेज मॉडल का उदय विवादास्पद है क्योंकि ये मॉडल अनैतिक उपयोग के लिए परिपक्व हैं।
प्रौद्योगिकी स्पष्ट सामग्री के निर्माण या दुष्प्रचार के लिए एक उपकरण के रूप में हो सकती है। Google और OpenAI दोनों के शोधकर्ता इसके बारे में जानते हैं, यही वजह है कि ये प्रौद्योगिकियां अभी भी सभी के लिए सुलभ नहीं हैं।
टेक्स्ट-टू-इमेज मॉडल के भी महत्वपूर्ण आर्थिक निहितार्थ हैं। यदि DALL-E जैसे मॉडल मुख्यधारा बन जाते हैं तो क्या मॉडल, फोटोग्राफर और कलाकार जैसे व्यवसाय प्रभावित होंगे?
फिलहाल, इन मॉडलों की अभी भी सीमाएं हैं। किसी भी एआई-जनित छवि को जांच के लिए रखने से उसकी खामियों का पता चलेगा। OpenAI और Google दोनों के साथ सबसे प्रभावी मॉडल के लिए प्रतिस्पर्धा के साथ, वास्तव में सही आउटपुट उत्पन्न होने से पहले यह समय की बात हो सकती है: एक ऐसी छवि जो वास्तविक चीज़ से अप्रभेद्य है।
आपको क्या लगता है जब तकनीक इतनी आगे चली जाएगी तो क्या होगा?
एक जवाब लिखें