DALL-E 2 vs Imagen - AI-उत्पन्न छविहरू र कला

विषयसूची[लुकाउनुहोस्][देखाउनु]

पाठ-देखि-छवि उत्पादन भनेको के हो?
DALLE 2 के हो?+-
- यस्ले कसरी काम गर्छ?
- सीमितता
गुगल इमेजेन एआई के हो?+-
- यस्ले कसरी काम गर्छ?
DALLE 2 vs Imagen को प्रदर्शन
निष्कर्ष

हालका वर्षहरूमा, गहिरो-सिकाइ मोडेलहरू मानव भाषा बुझ्नको लागि अझ प्रभावकारी भएका छन्।

जस्ता परियोजनाहरूको बारेमा सोच्नुहोस् GPT-3, जसले अब सम्पूर्ण लेख र वेबसाइटहरू सिर्जना गर्न सक्षम छ। GitHub भर्खरै प्रस्तुत गरिएको छ GitHub Copilot, तपाईलाई चाहिने कोडको प्रकार वर्णन गरेर सम्पूर्ण कोड स्निपेटहरू प्रदान गर्ने सेवा।

OpenAI, Facebook र Google का अन्वेषकहरूले अर्को कार्य ह्यान्डल गर्न गहिरो शिक्षा प्रयोग गर्ने तरिकाहरूमा काम गरिरहेका छन्: क्याप्शन छविहरू। लाखौं प्रविष्टिहरूको साथ ठूलो डेटासेट प्रयोग गर्दै, तिनीहरू केहीको साथ आएका छन् अचम्म परिणाम.

हालै, यी अन्वेषकहरूले विपरित कार्य गर्ने प्रयास गरेका छन्: क्याप्शनबाट छविहरू सिर्जना गर्ने। यो अब एक विवरण बाहिर एक पूर्ण नयाँ छवि सिर्जना गर्न सम्भव छ?

यो गाइडले दुईवटा सबैभन्दा उन्नत टेक्स्ट-टू-इमेज मोडेलहरू अन्वेषण गर्नेछ: OpenAI को DALL-E 2 र Google को Imagen AI। यी प्रत्येक परियोजनाहरूले ग्राउन्डब्रेकिंग विधिहरू प्रस्तुत गरेका छन् जसले समाजलाई परिवर्तन गर्न सक्छ जुन हामीलाई थाहा छ।

तर पहिले, हामी पाठ-देखि-छवि उत्पादन भन्नाको अर्थ बुझौं।

पाठ-देखि-छवि उत्पादन भनेको के हो?

पाठ-देखि-छवि मोडेलहरू प्रम्प्टहरूमा आधारित नयाँ र अद्वितीय छविहरू सिर्जना गर्न कम्प्युटरहरूलाई अनुमति दिनुहोस्। मानिसहरूले अब उनीहरूले उत्पादन गर्न चाहेको छविको पाठ विवरण प्रदान गर्न सक्छन्, र मोडेलले त्यो विवरणलाई सकेसम्म नजिकबाट मिल्ने दृश्य सिर्जना गर्ने प्रयास गर्नेछ।

मेसिन लर्निङ मोडेलहरूले प्रदर्शनमा थप सुधार गर्न छवि-क्याप्शन जोडीहरू समावेश गर्ने ठूला डाटासेटहरूको प्रयोगको लाभ उठाएका छन्।

धेरै जसो पाठ-देखि-छवि मोडेलहरूले ट्रान्सफर्मर भाषा मोडेल प्रयोग गर्दछ प्रम्प्टहरू व्याख्या गर्न। यस प्रकारको मोडेल ए तंत्रिका सञ्जाल जसले प्राकृतिक भाषाको सन्दर्भ र सिमान्टिक अर्थ सिक्ने प्रयास गर्छ।

अर्को, उत्पादन मोडेल जस्तै प्रसार मोडेलहरू र छवि संश्लेषणको लागि जनरेटिभ विरोधी नेटवर्कहरू प्रयोग गरिन्छ।

DALLE 2 के हो?

DALL-E 2 ले यथार्थवादी छवि र कला सिर्जना गर्दछ

DALL-E2 OpenAI द्वारा एक कम्प्युटर मोडेल हो जुन अप्रिल 2022 मा जारी गरिएको थियो। यो मोडेललाई छविहरूमा शब्द र वाक्यांशहरू जोड्न लाखौं लेबल गरिएका तस्बिरहरूको डेटाबेसमा तालिम दिइएको थियो।

प्रयोगकर्ताहरूले एउटा साधारण वाक्यांश टाइप गर्न सक्छन्, जस्तै "बिरालो खाइरहेको lasagna", र DALL-E 2 ले वाक्यांशले के वर्णन गर्न खोजिरहेको छ भन्ने आफ्नै व्याख्या उत्पन्न गर्नेछ।

स्क्र्याचबाट छविहरू सिर्जना गर्नुको अलावा, DALL-E 2 ले अवस्थित छविहरू पनि सम्पादन गर्न सक्छ। तलको उदाहरणमा, DALL-E थपिएको सोफेको साथ कोठाको परिमार्जित छवि उत्पन्न गर्न सक्षम थियो।

DALL-E 2 ले अवस्थित छविहरू सम्पादन गर्न सक्छ

DALL-E 2 ओपनएआईले विगत केही वर्षहरूमा जारी गरेको यस्तै धेरै परियोजनाहरू मध्ये एउटा मात्र हो। OpenAI को GPT-3 समाचार योग्य भयो जब यसले फरक शैलीहरूको पाठ उत्पन्न गरेको देखिन्छ।

हाल, DALL-E 2 अझै बिटा परीक्षणमा छ। इच्छुक प्रयोगकर्ताहरूले तिनीहरूको लागि साइन अप गर्न सक्छन् प्रतीक्षा सूची र पहुँचको लागि पर्खनुहोस्।

यस्ले कसरी काम गर्छ?

जबकि DALL-E 2 को नतिजा प्रभावशाली छन्, तपाइँ सोचिरहनु भएको छ कि यो सबै कसरी काम गर्दछ।

DALL-E 2 OpenAI को GPT-3 परियोजनाको बहुविध कार्यान्वयनको उदाहरण हो।

DALL-E 2 वास्तुकला को सिंहावलोकन

पहिलो, प्रयोगकर्ताको टेक्स्ट प्रम्प्टलाई टेक्स्ट एन्कोडरमा राखिएको छ जसले प्रम्प्टलाई प्रतिनिधित्व स्पेसमा म्याप गर्छ। DALL-E 2 ले प्राकृतिक भाषाबाट अर्थसम्बन्धी जानकारी प्राप्त गर्न CLIP (Contrastive Language-Image Pre-Training) भनिने अर्को OpenAI मोडल प्रयोग गर्दछ।

अर्को, को रूपमा चिनिने मोडेल पूर्व पाठ एन्कोडिङलाई छवि सङ्केतनमा नक्सा बनाउँछ। यो छवि इन्कोडिङले पाठ इन्कोडिङ चरणमा फेला परेको सिमान्टिक जानकारी क्याप्चर गर्नुपर्छ।

वास्तविक छवि सिर्जना गर्न, DALL-E 2 ले सिमान्टिक जानकारी र छवि एन्कोडिङ विवरणहरू प्रयोग गरेर दृश्य उत्पन्न गर्न छवि डिकोडर प्रयोग गर्दछ। OpenAI ले परिमार्जित संस्करण प्रयोग गर्दछ ग्लाइड छवि उत्पादन प्रदर्शन गर्न मोडेल। ग्लाइड a मा निर्भर गर्दछ प्रसार मोडेल छविहरू सिर्जना गर्न।

DALL-E 2 मोडेलमा ग्लाइड थप्दा थप फोटोरियलिस्टिक आउटपुट सक्षम भयो। GLIDE मोडेल स्टोकास्टिक वा अनियमित रूपमा निर्धारित भएको हुनाले, DALL-E 2 मोडेलले मोडेललाई बारम्बार चलाएर सजिलै भिन्नताहरू सिर्जना गर्न सक्छ।

सीमितता

DALL-E 2 मोडेलको प्रभावशाली नतिजाहरूको बावजुद, यसले अझै पनि केही सीमितताहरूको सामना गर्दछ।

हिज्जे पाठ

मोडेलले चिन्हहरूमा शब्दहरूको हिज्जेलाई गडबड गर्छ

DALL-E 2 लाई पाठ उत्पन्न गर्ने प्रयास गर्ने प्रम्प्टहरूले शब्दहरू हिज्जे गर्न कठिनाइ भएको कुरा प्रकट गर्दछ। हिज्जे जानकारी को भाग नभएको कारण यो हुन सक्छ भनेर विज्ञहरू अनुमान गर्छन् प्रशिक्षण डेटासेट.

रचनात्मक तर्क

मोडेल अन्तरिक्षमा वस्तुहरू राख्न संघर्ष गर्दछ

अन्वेषकहरूले अवलोकन गर्छन् कि DALL-E 2 लाई अझै पनि संरचनात्मक तर्क संग केहि कठिनाई छ। सरल भाषामा भन्नुपर्दा, यी पक्षहरू बीचको सम्बन्ध पत्ता लगाउन अझै समस्या हुँदा मोडेलले छविको व्यक्तिगत पक्षहरू बुझ्न सक्छ।

उदाहरणका लागि, यदि "नीलो क्यूबको माथि रातो घन" प्रोम्प्ट दिइयो भने, DALL-E ले निलो घन र रातो क्यूब सही रूपमा उत्पन्न गर्नेछ तर तिनीहरूलाई सही रूपमा राख्न असफल हुनेछ। मोडेललाई प्रम्प्टहरूसँग कठिनाइ भएको पनि अवलोकन गरिएको छ जसको लागि वस्तुहरूको एक निश्चित संख्या कोर्न आवश्यक छ।

डाटासेटमा पूर्वाग्रह

यदि प्रम्प्टमा कुनै अन्य विवरणहरू समावेश छैनन् भने, DALL-E ले सेतो वा पश्चिमी मानिसहरू र वातावरण चित्रण गरेको अवलोकन गरिएको छ। यो प्रतिनिधित्वात्मक पूर्वाग्रह डेटासेटमा पश्चिमी-केन्द्रित छविहरूको प्रचुरताको कारणले हुन्छ।

DALL-E 2 सँग लैङ्गिक पूर्वाग्रहहरू छन्

मोडेलले लैङ्गिक स्टिरियोटाइपहरू पछ्याउन पनि अवलोकन गरेको छ। उदाहरणका लागि, "फ्लाइट अटेन्डेन्ट" प्रम्प्टमा टाइप गर्दा प्रायः महिला उडान परिचरहरूको छविहरू उत्पन्न हुन्छ।

गुगल इमेजेन एआई के हो?

DALL-E 2 vs Imagen - Imagen हिज्जे र रचनामा राम्रो छ

Google को छवि AI एउटा मोडेल हो जसले इनपुट टेक्स्टबाट फोटोरियलिस्टिक छविहरू सिर्जना गर्ने लक्ष्य राख्छ। DALL-E जस्तै, मोडेलले पाठ बुझ्न ट्रान्सफर्मर भाषा मोडेलहरू पनि प्रयोग गर्दछ र उच्च गुणस्तर छविहरू सिर्जना गर्न प्रसार मोडेलहरूको प्रयोगमा निर्भर गर्दछ।

इमेजेनको साथसाथै, गुगलले पाठ-देखि-छवि मोडेलहरूको लागि ड्र बेन्च भनिने बेन्चमार्क पनि जारी गरेको छ। DrawBench को प्रयोग गरेर, तिनीहरूले मानव रेटरहरूले DALL-E 2 सहित अन्य मोडेलहरूमा इमेजेन आउटपुटलाई प्राथमिकता दिएका थिए भनेर अवलोकन गर्न सक्षम भए।

यस्ले कसरी काम गर्छ?

imagen उच्च रिजोलुसन कार्य उत्पादन गर्न एक प्रसार मोडेल प्रयोग गर्दछ

DALL-E जस्तै, Imagen ले प्रयोगकर्ता प्रम्प्टलाई फ्रिज गरिएको टेक्स्ट इन्कोडर मार्फत टेक्स्ट इम्बेडिङमा रूपान्तरण गर्छ।

इमेजेनले एक प्रसार मोडेल प्रयोग गर्दछ जसले आवाजको ढाँचालाई छविहरूमा कसरी रूपान्तरण गर्ने भनेर सिक्छ। यी तस्बिरहरूको प्रारम्भिक आउटपुट कम रिजोल्युसन हो र पछि अन्तिम छविको रिजोल्युसन बढाउनको लागि सुपर-रिजोल्युसन डिफ्यूजन मोडेलको रूपमा चिनिने अर्को मोडेल मार्फत पारित गरिन्छ। पहिलो प्रसार मोडेलले 64×64 पिक्सेल छवि आउटपुट गर्छ र पछि उच्च-रिजोल्युसन 1024×1024 छविमा उडाइन्छ।

इमेजेन टोलीको अनुसन्धानको आधारमा, पाठ डेटामा मात्र प्रशिक्षित ठूला जमेको भाषा मोडेलहरू अझै पनि पाठ-देखि-छवि उत्पादनका लागि अत्यधिक प्रभावकारी टेक्स्ट एन्कोडरहरू हुन्।

अध्ययनले गतिशील थ्रेसहोल्डिङको अवधारणालाई पनि परिचय गराउँछ। यो विधिले छविहरू सिर्जना गर्दा मार्गदर्शन वजनहरू बढाएर छविहरूलाई थप फोटोरियलिस्टिक देखिन सक्षम बनाउँछ।

DALLE 2 vs Imagen को प्रदर्शन

गुगलको बेन्चमार्कबाट प्रारम्भिक नतिजाहरूले देखाउँछ कि मानव उत्तरदाताहरूले DALL-E 2 र अन्य पाठ-देखि-छवि मोडेलहरू जस्तै लेटेन्ट डिफ्यूजन र VQGAN+CLIP मा इमेजेन द्वारा उत्पन्न छविहरूलाई प्राथमिकता दिन्छन्।

DALL-E 2 vs Imagen परिणामहरू Google बाट DrawBench प्रयोग गरेर

इमेजेन टोलीबाट आउने आउटपुटले पनि देखाएको छ कि तिनीहरूको मोडेलले पाठ हिज्जेमा राम्रो प्रदर्शन गर्दछ, DALL-E 2 मोडेलको ज्ञात कमजोरी।

यद्यपि, गुगलले अहिलेसम्म यो मोडेल सार्वजनिक नगरेकोले, यो अझै हेर्न बाँकी छ कि गुगलको बेन्चमार्कहरू कत्तिको सही छन्।

निष्कर्ष

फोटोरियलिस्टिक टेक्स्ट-टू-इमेज मोडेलहरूको उदय विवादास्पद छ किनभने यी मोडेलहरू अनैतिक प्रयोगको लागि परिपक्व छन्।

टेक्नोलोजीले स्पष्ट सामग्री सिर्जना गर्न वा विकृतिको लागि उपकरणको रूपमा नेतृत्व गर्न सक्छ। गुगल र ओपनएआई दुबैका अनुसन्धानकर्ताहरू यसबारे सचेत छन्, जसको कारणले गर्दा यी प्रविधिहरू अझै पनि सबैका लागि पहुँचयोग्य छैनन्।

पाठ-देखि-छवि मोडेलहरूमा पनि महत्त्वपूर्ण आर्थिक प्रभावहरू छन्। यदि DALL-E जस्ता मोडेलहरू मूलधारमा परिणत भएमा के मोडेल, फोटोग्राफर र कलाकार जस्ता पेशाहरू प्रभावित हुनेछन्?

यस समयमा, यी मोडेलहरू अझै पनि सीमितताहरू छन्। कुनै पनि एआई-उत्पन्न छवि छानबिनको लागि होल्ड गर्दा यसको अपूर्णताहरू प्रकट हुनेछ। ओपनएआई र गुगल दुबैले सबैभन्दा प्रभावकारी मोडेलहरूको लागि प्रतिस्पर्धा गर्दै, यो वास्तवमै सही आउटपुट उत्पन्न हुनु अघि समयको कुरा हुन सक्छ: एउटा छवि जुन वास्तविक चीजबाट भिन्न छ।

टेक्नोलोजी यति टाढा जाँदा के हुन्छ जस्तो लाग्छ?

DALL-E 2 vs Imagen - AI-उत्पन्न छविहरू र कला

पाठ-देखि-छवि उत्पादन भनेको के हो?

DALLE 2 के हो?

यस्ले कसरी काम गर्छ?

सीमितता

गुगल इमेजेन एआई के हो?

यस्ले कसरी काम गर्छ?

DALLE 2 vs Imagen को प्रदर्शन

निष्कर्ष

हाम्रो बारेमा डियोन मेनोर

HashDork मा थप लेखहरू:

तपाईको AI मा भ्रम कसरी कम गर्ने

Colossyan बनाम Heygen

यो भविष्य टेक न्यूजलेटर बेकार छैन

DALL-E 2 vs Imagen - AI-उत्पन्न छविहरू र कला

पाठ-देखि-छवि उत्पादन भनेको के हो?

DALLE 2 के हो?

यस्ले कसरी काम गर्छ?

सीमितता

गुगल इमेजेन एआई के हो?

यस्ले कसरी काम गर्छ?

DALLE 2 vs Imagen को प्रदर्शन

निष्कर्ष

हाम्रो बारेमा डियोन मेनोर

HashDork मा थप लेखहरू:

तपाईको AI मा भ्रम कसरी कम गर्ने

सामाजिक सञ्जालका लागि १० उत्कृष्ट एआई उपकरणहरू

Colossyan बनाम Heygen

१० सर्वश्रेष्ठ एआई एनिमेटेड भिडियो निर्माता उपकरणहरू

पाठक अन्तरक्रिया

जवाफ छाड्नुस् जवाफ रद्द

यो भविष्य टेक न्यूजलेटर बेकार छैन