हालका वर्षहरूमा, गहिरो-सिकाइ मोडेलहरू मानव भाषा बुझ्नको लागि अझ प्रभावकारी भएका छन्।
जस्ता परियोजनाहरूको बारेमा सोच्नुहोस् GPT-3, जसले अब सम्पूर्ण लेख र वेबसाइटहरू सिर्जना गर्न सक्षम छ। GitHub भर्खरै प्रस्तुत गरिएको छ GitHub Copilot, तपाईलाई चाहिने कोडको प्रकार वर्णन गरेर सम्पूर्ण कोड स्निपेटहरू प्रदान गर्ने सेवा।
OpenAI, Facebook र Google का अन्वेषकहरूले अर्को कार्य ह्यान्डल गर्न गहिरो शिक्षा प्रयोग गर्ने तरिकाहरूमा काम गरिरहेका छन्: क्याप्शन छविहरू। लाखौं प्रविष्टिहरूको साथ ठूलो डेटासेट प्रयोग गर्दै, तिनीहरू केहीको साथ आएका छन् अचम्म परिणाम.
हालै, यी अन्वेषकहरूले विपरित कार्य गर्ने प्रयास गरेका छन्: क्याप्शनबाट छविहरू सिर्जना गर्ने। यो अब एक विवरण बाहिर एक पूर्ण नयाँ छवि सिर्जना गर्न सम्भव छ?
यो गाइडले दुईवटा सबैभन्दा उन्नत टेक्स्ट-टू-इमेज मोडेलहरू अन्वेषण गर्नेछ: OpenAI को DALL-E 2 र Google को Imagen AI। यी प्रत्येक परियोजनाहरूले ग्राउन्डब्रेकिंग विधिहरू प्रस्तुत गरेका छन् जसले समाजलाई परिवर्तन गर्न सक्छ जुन हामीलाई थाहा छ।
तर पहिले, हामी पाठ-देखि-छवि उत्पादन भन्नाको अर्थ बुझौं।
पाठ-देखि-छवि उत्पादन भनेको के हो?
पाठ-देखि-छवि मोडेलहरू प्रम्प्टहरूमा आधारित नयाँ र अद्वितीय छविहरू सिर्जना गर्न कम्प्युटरहरूलाई अनुमति दिनुहोस्। मानिसहरूले अब उनीहरूले उत्पादन गर्न चाहेको छविको पाठ विवरण प्रदान गर्न सक्छन्, र मोडेलले त्यो विवरणलाई सकेसम्म नजिकबाट मिल्ने दृश्य सिर्जना गर्ने प्रयास गर्नेछ।
मेसिन लर्निङ मोडेलहरूले प्रदर्शनमा थप सुधार गर्न छवि-क्याप्शन जोडीहरू समावेश गर्ने ठूला डाटासेटहरूको प्रयोगको लाभ उठाएका छन्।
धेरै जसो पाठ-देखि-छवि मोडेलहरूले ट्रान्सफर्मर भाषा मोडेल प्रयोग गर्दछ प्रम्प्टहरू व्याख्या गर्न। यस प्रकारको मोडेल ए तंत्रिका सञ्जाल जसले प्राकृतिक भाषाको सन्दर्भ र सिमान्टिक अर्थ सिक्ने प्रयास गर्छ।
अर्को, उत्पादन मोडेल जस्तै प्रसार मोडेलहरू र छवि संश्लेषणको लागि जनरेटिभ विरोधी नेटवर्कहरू प्रयोग गरिन्छ।
DALLE 2 के हो?
DALL-E2 OpenAI द्वारा एक कम्प्युटर मोडेल हो जुन अप्रिल 2022 मा जारी गरिएको थियो। यो मोडेललाई छविहरूमा शब्द र वाक्यांशहरू जोड्न लाखौं लेबल गरिएका तस्बिरहरूको डेटाबेसमा तालिम दिइएको थियो।
प्रयोगकर्ताहरूले एउटा साधारण वाक्यांश टाइप गर्न सक्छन्, जस्तै "बिरालो खाइरहेको lasagna", र DALL-E 2 ले वाक्यांशले के वर्णन गर्न खोजिरहेको छ भन्ने आफ्नै व्याख्या उत्पन्न गर्नेछ।
स्क्र्याचबाट छविहरू सिर्जना गर्नुको अलावा, DALL-E 2 ले अवस्थित छविहरू पनि सम्पादन गर्न सक्छ। तलको उदाहरणमा, DALL-E थपिएको सोफेको साथ कोठाको परिमार्जित छवि उत्पन्न गर्न सक्षम थियो।
DALL-E 2 ओपनएआईले विगत केही वर्षहरूमा जारी गरेको यस्तै धेरै परियोजनाहरू मध्ये एउटा मात्र हो। OpenAI को GPT-3 समाचार योग्य भयो जब यसले फरक शैलीहरूको पाठ उत्पन्न गरेको देखिन्छ।
हाल, DALL-E 2 अझै बिटा परीक्षणमा छ। इच्छुक प्रयोगकर्ताहरूले तिनीहरूको लागि साइन अप गर्न सक्छन् प्रतीक्षा सूची र पहुँचको लागि पर्खनुहोस्।
यस्ले कसरी काम गर्छ?
जबकि DALL-E 2 को नतिजा प्रभावशाली छन्, तपाइँ सोचिरहनु भएको छ कि यो सबै कसरी काम गर्दछ।
DALL-E 2 OpenAI को GPT-3 परियोजनाको बहुविध कार्यान्वयनको उदाहरण हो।
पहिलो, प्रयोगकर्ताको टेक्स्ट प्रम्प्टलाई टेक्स्ट एन्कोडरमा राखिएको छ जसले प्रम्प्टलाई प्रतिनिधित्व स्पेसमा म्याप गर्छ। DALL-E 2 ले प्राकृतिक भाषाबाट अर्थसम्बन्धी जानकारी प्राप्त गर्न CLIP (Contrastive Language-Image Pre-Training) भनिने अर्को OpenAI मोडल प्रयोग गर्दछ।
अर्को, को रूपमा चिनिने मोडेल पूर्व पाठ एन्कोडिङलाई छवि सङ्केतनमा नक्सा बनाउँछ। यो छवि इन्कोडिङले पाठ इन्कोडिङ चरणमा फेला परेको सिमान्टिक जानकारी क्याप्चर गर्नुपर्छ।
वास्तविक छवि सिर्जना गर्न, DALL-E 2 ले सिमान्टिक जानकारी र छवि एन्कोडिङ विवरणहरू प्रयोग गरेर दृश्य उत्पन्न गर्न छवि डिकोडर प्रयोग गर्दछ। OpenAI ले परिमार्जित संस्करण प्रयोग गर्दछ ग्लाइड छवि उत्पादन प्रदर्शन गर्न मोडेल। ग्लाइड a मा निर्भर गर्दछ प्रसार मोडेल छविहरू सिर्जना गर्न।
DALL-E 2 मोडेलमा ग्लाइड थप्दा थप फोटोरियलिस्टिक आउटपुट सक्षम भयो। GLIDE मोडेल स्टोकास्टिक वा अनियमित रूपमा निर्धारित भएको हुनाले, DALL-E 2 मोडेलले मोडेललाई बारम्बार चलाएर सजिलै भिन्नताहरू सिर्जना गर्न सक्छ।
सीमितता
DALL-E 2 मोडेलको प्रभावशाली नतिजाहरूको बावजुद, यसले अझै पनि केही सीमितताहरूको सामना गर्दछ।
हिज्जे पाठ
DALL-E 2 लाई पाठ उत्पन्न गर्ने प्रयास गर्ने प्रम्प्टहरूले शब्दहरू हिज्जे गर्न कठिनाइ भएको कुरा प्रकट गर्दछ। हिज्जे जानकारी को भाग नभएको कारण यो हुन सक्छ भनेर विज्ञहरू अनुमान गर्छन् प्रशिक्षण डेटासेट.
रचनात्मक तर्क
अन्वेषकहरूले अवलोकन गर्छन् कि DALL-E 2 लाई अझै पनि संरचनात्मक तर्क संग केहि कठिनाई छ। सरल भाषामा भन्नुपर्दा, यी पक्षहरू बीचको सम्बन्ध पत्ता लगाउन अझै समस्या हुँदा मोडेलले छविको व्यक्तिगत पक्षहरू बुझ्न सक्छ।
उदाहरणका लागि, यदि "नीलो क्यूबको माथि रातो घन" प्रोम्प्ट दिइयो भने, DALL-E ले निलो घन र रातो क्यूब सही रूपमा उत्पन्न गर्नेछ तर तिनीहरूलाई सही रूपमा राख्न असफल हुनेछ। मोडेललाई प्रम्प्टहरूसँग कठिनाइ भएको पनि अवलोकन गरिएको छ जसको लागि वस्तुहरूको एक निश्चित संख्या कोर्न आवश्यक छ।
डाटासेटमा पूर्वाग्रह
यदि प्रम्प्टमा कुनै अन्य विवरणहरू समावेश छैनन् भने, DALL-E ले सेतो वा पश्चिमी मानिसहरू र वातावरण चित्रण गरेको अवलोकन गरिएको छ। यो प्रतिनिधित्वात्मक पूर्वाग्रह डेटासेटमा पश्चिमी-केन्द्रित छविहरूको प्रचुरताको कारणले हुन्छ।
मोडेलले लैङ्गिक स्टिरियोटाइपहरू पछ्याउन पनि अवलोकन गरेको छ। उदाहरणका लागि, "फ्लाइट अटेन्डेन्ट" प्रम्प्टमा टाइप गर्दा प्रायः महिला उडान परिचरहरूको छविहरू उत्पन्न हुन्छ।
गुगल इमेजेन एआई के हो?
Google को छवि AI एउटा मोडेल हो जसले इनपुट टेक्स्टबाट फोटोरियलिस्टिक छविहरू सिर्जना गर्ने लक्ष्य राख्छ। DALL-E जस्तै, मोडेलले पाठ बुझ्न ट्रान्सफर्मर भाषा मोडेलहरू पनि प्रयोग गर्दछ र उच्च गुणस्तर छविहरू सिर्जना गर्न प्रसार मोडेलहरूको प्रयोगमा निर्भर गर्दछ।
इमेजेनको साथसाथै, गुगलले पाठ-देखि-छवि मोडेलहरूको लागि ड्र बेन्च भनिने बेन्चमार्क पनि जारी गरेको छ। DrawBench को प्रयोग गरेर, तिनीहरूले मानव रेटरहरूले DALL-E 2 सहित अन्य मोडेलहरूमा इमेजेन आउटपुटलाई प्राथमिकता दिएका थिए भनेर अवलोकन गर्न सक्षम भए।
यस्ले कसरी काम गर्छ?
DALL-E जस्तै, Imagen ले प्रयोगकर्ता प्रम्प्टलाई फ्रिज गरिएको टेक्स्ट इन्कोडर मार्फत टेक्स्ट इम्बेडिङमा रूपान्तरण गर्छ।
इमेजेनले एक प्रसार मोडेल प्रयोग गर्दछ जसले आवाजको ढाँचालाई छविहरूमा कसरी रूपान्तरण गर्ने भनेर सिक्छ। यी तस्बिरहरूको प्रारम्भिक आउटपुट कम रिजोल्युसन हो र पछि अन्तिम छविको रिजोल्युसन बढाउनको लागि सुपर-रिजोल्युसन डिफ्यूजन मोडेलको रूपमा चिनिने अर्को मोडेल मार्फत पारित गरिन्छ। पहिलो प्रसार मोडेलले 64×64 पिक्सेल छवि आउटपुट गर्छ र पछि उच्च-रिजोल्युसन 1024×1024 छविमा उडाइन्छ।
इमेजेन टोलीको अनुसन्धानको आधारमा, पाठ डेटामा मात्र प्रशिक्षित ठूला जमेको भाषा मोडेलहरू अझै पनि पाठ-देखि-छवि उत्पादनका लागि अत्यधिक प्रभावकारी टेक्स्ट एन्कोडरहरू हुन्।
अध्ययनले गतिशील थ्रेसहोल्डिङको अवधारणालाई पनि परिचय गराउँछ। यो विधिले छविहरू सिर्जना गर्दा मार्गदर्शन वजनहरू बढाएर छविहरूलाई थप फोटोरियलिस्टिक देखिन सक्षम बनाउँछ।
DALLE 2 vs Imagen को प्रदर्शन
गुगलको बेन्चमार्कबाट प्रारम्भिक नतिजाहरूले देखाउँछ कि मानव उत्तरदाताहरूले DALL-E 2 र अन्य पाठ-देखि-छवि मोडेलहरू जस्तै लेटेन्ट डिफ्यूजन र VQGAN+CLIP मा इमेजेन द्वारा उत्पन्न छविहरूलाई प्राथमिकता दिन्छन्।
इमेजेन टोलीबाट आउने आउटपुटले पनि देखाएको छ कि तिनीहरूको मोडेलले पाठ हिज्जेमा राम्रो प्रदर्शन गर्दछ, DALL-E 2 मोडेलको ज्ञात कमजोरी।
यद्यपि, गुगलले अहिलेसम्म यो मोडेल सार्वजनिक नगरेकोले, यो अझै हेर्न बाँकी छ कि गुगलको बेन्चमार्कहरू कत्तिको सही छन्।
निष्कर्ष
फोटोरियलिस्टिक टेक्स्ट-टू-इमेज मोडेलहरूको उदय विवादास्पद छ किनभने यी मोडेलहरू अनैतिक प्रयोगको लागि परिपक्व छन्।
टेक्नोलोजीले स्पष्ट सामग्री सिर्जना गर्न वा विकृतिको लागि उपकरणको रूपमा नेतृत्व गर्न सक्छ। गुगल र ओपनएआई दुबैका अनुसन्धानकर्ताहरू यसबारे सचेत छन्, जसको कारणले गर्दा यी प्रविधिहरू अझै पनि सबैका लागि पहुँचयोग्य छैनन्।
पाठ-देखि-छवि मोडेलहरूमा पनि महत्त्वपूर्ण आर्थिक प्रभावहरू छन्। यदि DALL-E जस्ता मोडेलहरू मूलधारमा परिणत भएमा के मोडेल, फोटोग्राफर र कलाकार जस्ता पेशाहरू प्रभावित हुनेछन्?
यस समयमा, यी मोडेलहरू अझै पनि सीमितताहरू छन्। कुनै पनि एआई-उत्पन्न छवि छानबिनको लागि होल्ड गर्दा यसको अपूर्णताहरू प्रकट हुनेछ। ओपनएआई र गुगल दुबैले सबैभन्दा प्रभावकारी मोडेलहरूको लागि प्रतिस्पर्धा गर्दै, यो वास्तवमै सही आउटपुट उत्पन्न हुनु अघि समयको कुरा हुन सक्छ: एउटा छवि जुन वास्तविक चीजबाट भिन्न छ।
टेक्नोलोजी यति टाढा जाँदा के हुन्छ जस्तो लाग्छ?
जवाफ छाड्नुस्