विषयसूची[लुकाउनुहोस्][देखाउनु]
कम्प्युटरले तस्विरको वर्णन गर्न सक्छ भन्ने कुरा तपाईलाई थाहा छ।
उदाहरणका लागि, तपाईंका बच्चाहरूसँग खेलिरहेको कुकुरको चित्रलाई 'कुकुर र बगैंचामा बच्चाहरू' भनेर अनुवाद गर्न सकिन्छ। तर के तपाईलाई थाहा छ उल्टो बाटो अब पनि सम्भव छ? तपाइँ केहि शब्दहरू टाइप गर्नुहुन्छ, र मेसिनले नयाँ चित्र उत्पन्न गर्दछ।
गुगल खोजको विपरीत, जुन अवस्थित फोटोहरू खोज्छ, यो सबै ताजा छ। हालैका वर्षहरूमा, ओपनएआई अचम्मको नतिजाहरू रिपोर्ट गर्दै अग्रणी संस्थाहरू मध्ये एक भएको छ।
तिनीहरूले आफ्नो एल्गोरिदमलाई ठूलो पाठ र चित्र डेटाबेसहरूमा तालिम दिन्छन्। तिनीहरूले आफ्नो ग्लाइड छवि मोडेलमा एउटा पेपर प्रकाशित गरे, जसलाई लाखौं फोटोहरूमा तालिम दिइएको थियो। फोटोरियलिज्मको सन्दर्भमा, यसले तिनीहरूको अघिल्लो 'DALL-E' मोडेललाई पछाडि पार्छ।
यस पोष्टमा, हामी OpenAI को GLIDE हेर्नेछौं, पाठ-निर्देशित प्रसार मोडेलहरूको साथ फोटोरियलिस्टिक चित्रहरू उत्पादन र परिवर्तन गर्ने उद्देश्यले धेरै आकर्षक पहलहरू मध्ये एक। सुरु गरौं।
के हो AI ग्लाइड खोल्नुहोस्?
धेरै जसो छविहरू शब्दहरूमा वर्णन गर्न सकिन्छ, पाठ इनपुटहरूबाट छविहरू सिर्जना गर्न विशेष ज्ञान र महत्त्वपूर्ण समय आवश्यक पर्दछ।
एआई एजेन्टलाई प्राकृतिक भाषा प्रम्प्टहरूबाट फोटोरियलिस्टिक चित्रहरू उत्पादन गर्न अनुमति दिनुले मानिसहरूलाई अभूतपूर्व सहजताका साथ समृद्ध र विविध दृश्य सामग्रीहरू सिर्जना गर्न मात्र अनुमति दिँदैन तर सिर्जना गरिएका छविहरूको सरल पुनरावृत्ति परिष्करण र सूक्ष्म नियन्त्रणको लागि पनि अनुमति दिन्छ।
नयाँ वस्तुहरू घुसाउन, छायाँ र प्रतिबिम्बहरू सिर्जना गर्न, प्रदर्शन गर्न प्राकृतिक भाषा पाठ प्रम्प्टहरू प्रयोग गरेर अवस्थित फोटोहरू सम्पादन गर्न GLIDE प्रयोग गर्न सकिन्छ। छवि चित्रण, र त्यसमा।
यसले आधारभूत रेखा रेखाचित्रहरूलाई फोटोरियलिस्टिक तस्बिरहरूमा पनि बदल्न सक्छ, र यसमा जटिल परिस्थितिहरूको लागि असाधारण शून्य-नमूना निर्माण र मर्मत क्षमताहरू छन्।
भर्खरको अनुसन्धानले प्रदर्शन गरेको छ कि सम्भावना-आधारित प्रसार मोडेलहरूले उच्च-गुणस्तरको सिंथेटिक चित्रहरू पनि उत्पादन गर्न सक्छन्, विशेष गरी जब विविधता र निष्ठालाई सन्तुलन गर्ने मार्गनिर्देशन दृष्टिकोणसँग जोडिन्छ।
OpenAI प्रकाशित निर्देशित प्रसार मोडेल मे मा, जसले प्रसार मोडेलहरूलाई वर्गीकरणकर्ताको लेबलहरूमा सशर्त हुन अनुमति दिन्छ। GLIDE ले पाठ-सशर्त छवि सिर्जनाको समस्यामा निर्देशित प्रसार ल्याएर यस सफलतामा सुधार गर्दछ।
3.5 बिलियन प्यारामिटर ग्लाइड डिफ्यूजन मोडेललाई प्राकृतिक भाषा विवरणहरूमा सर्तमा पाठ एन्कोडर प्रयोग गरेर प्रशिक्षण पछि, अनुसन्धानकर्ताहरूले दुई वैकल्पिक मार्गनिर्देशन रणनीतिहरूको परीक्षण गरे: CLIP मार्गदर्शन र वर्गीकरण-मुक्त मार्गदर्शन।
CLIP पाठ र तस्विरहरूको संयुक्त प्रतिनिधित्व सिक्ने एउटा स्केलेबल प्रविधि हो जसले छवि क्याप्शनको नजिक छ भन्ने आधारमा स्कोर प्रदान गर्दछ।
टोलीले यस रणनीतिलाई तिनीहरूको फैलावट मोडेलहरूमा क्लासिफायरलाई CLIP मोडेलको साथ प्रतिस्थापन गरेर प्रयोग गर्यो जसले मोडेलहरूलाई "मार्गदर्शन" गर्दछ। यसैबीच, वर्गीकरण-मुक्त मार्गदर्शन डिफ्यूजन मोडेलहरू निर्देशित गर्ने रणनीति हो जुन छुट्टै वर्गीकरणकर्ताको प्रशिक्षण समावेश गर्दैन।
ग्लाइड आर्किटेक्चर
ग्लाइड आर्किटेक्चरमा तीनवटा कम्पोनेन्टहरू हुन्छन्: 64 × 64 छवि उत्पन्न गर्न प्रशिक्षित एब्लेटेड डिफ्युजन मोडेल (ADM), टेक्स्ट प्रम्प्ट मार्फत छवि उत्पादनलाई प्रभाव पार्ने पाठ मोडेल (ट्रान्सफर्मर), र हाम्रो सानो 64 × 64 लाई रूपान्तरण गर्ने अपसम्पलिंग मोडेल। थप व्याख्यायोग्य 256 x 256 पिक्सेलमा छविहरू।
पहिलो दुई कम्पोनेन्टहरूले तस्विर उत्पादन प्रक्रियालाई नियन्त्रण गर्न सँगै काम गर्दछ ताकि यसले पाठ प्रम्प्टलाई उचित रूपमा प्रतिबिम्बित गर्दछ, जबकि पछिल्लोले हामीले सिर्जना गर्ने छविहरूलाई बुझ्नको लागि सजिलो बनाउन आवश्यक छ। GLIDE परियोजना एक द्वारा प्रेरित थियो 2021 मा प्रकाशित रिपोर्ट जसले ADM प्रविधिहरूले चित्र नमूना गुणस्तरको सन्दर्भमा हाल लोकप्रिय, अत्याधुनिक जेनेरेटिभ मोडेलहरू भन्दा राम्रो प्रदर्शन गरेको देखाएको छ।
एडीएमका लागि, ग्लाइड लेखकहरूले धारिवाल र निकोलको रूपमा उही ImageNet 64 x 64 मोडेल प्रयोग गरे, तर 512 को सट्टा 64 च्यानलहरूसँग। इमेजनेट मोडेलमा यसको परिणाम स्वरूप लगभग 2.3 बिलियन प्यारामिटरहरू छन्।
ग्लाइड टोली, धारिवाल र निकोलको विपरीत, चित्र उत्पादन गर्ने प्रक्रियामा बढी प्रत्यक्ष नियन्त्रण गर्न चाहन्थे, यसरी तिनीहरूले ध्यान-सक्षम ट्रान्सफर्मरसँग भिजुअल मोडेललाई जोडे। ग्लाइडले तपाईंलाई पाठ इनपुट प्रम्प्टहरू प्रशोधन गरेर चित्र उत्पादन प्रक्रिया आउटपुटमा केही नियन्त्रण दिन्छ।
यो ट्रान्सफर्मर मोडेललाई फोटो र क्याप्शनहरूको उपयुक्त ठूलो डेटासेट (DALL-E परियोजनामा नियोजित जस्तै) मा प्रशिक्षण दिएर पूरा हुन्छ।
पाठलाई सुरुमा K टोकनहरूको शृङ्खलामा सङ्केत गरिएको छ। त्यस पछि, टोकनहरू ट्रान्सफर्मर मोडेलमा लोड हुन्छन्। त्यसपछि ट्रान्सफर्मरको आउटपुट दुई तरिकामा प्रयोग गर्न सकिन्छ। ADM मोडेलको लागि, अन्तिम टोकन इम्बेडिङ क्लास इम्बेडिङको सट्टा प्रयोग गरिन्छ।
दोस्रो, टोकन एम्बेडिङको अन्तिम तह - फीचर भेक्टरहरूको एक श्रृंखला - ADM मोडेलमा प्रत्येक ध्यान तहको लागि आयामहरूमा स्वतन्त्र रूपमा प्रक्षेपण गरिएको छ र प्रत्येक ध्यान सन्दर्भमा जोडिएको छ।
वास्तवमा, यसले ADM मोडेललाई इनपुट शब्दहरू र तिनीहरूसँग सम्बन्धित छविहरूको सिकेको बुझाइमा आधारित, अद्वितीय र फोटोरियलस्टिक फेसनमा समान पाठ टोकनहरूको नयाँ संयोजनबाट चित्र उत्पादन गर्न सक्षम बनाउँछ। यो पाठ-इन्कोडिङ ट्रान्सफर्मरले 1.2 बिलियन प्यारामिटरहरू समावेश गर्दछ र 24 को चौडाइको साथ 2048 बाँकी ब्लकहरू प्रयोग गर्दछ।
अन्तमा, upsampler प्रसार मोडेलले लगभग 1.5 बिलियन प्यारामिटरहरू समावेश गर्दछ र आधार मोडेलको तुलनामा यसको पाठ एन्कोडर सानो छ, 1024 र 384 आधार च्यानलहरूको चौडाइको साथ आधारभूत मोडेलबाट भिन्न हुन्छ। यो मोडेल, नामले संकेत गरे जस्तै, मेसिन र मानव दुवैको लागि व्याख्याता सुधार गर्न नमूनाको स्तरवृद्धिमा मद्दत गर्दछ।
प्रसार मोडेल
ग्लाइडले ADM को आफ्नै संस्करण प्रयोग गरेर छविहरू उत्पन्न गर्दछ ("निर्देशित" को लागी ADM-G)। ADM-G मोडेल फैलावट U-net मोडेलको परिमार्जन हो। एक प्रसार U-net मोडेल अधिक सामान्य छवि संश्लेषण प्रविधिहरू जस्तै VAE, GAN, र ट्रान्सफर्मरहरूबाट नाटकीय रूपमा भिन्न हुन्छ।
तिनीहरूले डेटामा क्रमशः अनियमित आवाज इन्जेक्सन गर्न प्रसार चरणहरूको मार्कोभ श्रृंखला निर्माण गर्छन्, र त्यसपछि फैलावट प्रक्रियालाई उल्टाउन र आवाजबाट मात्र आवश्यक डेटा नमूनाहरू पुन: निर्माण गर्न सिक्छन्। यो दुई चरणहरूमा सञ्चालन हुन्छ: अगाडि र उल्टो प्रसार।
फर्वार्ड डिफ्युजन विधि, नमूनाको साँचो वितरणबाट डेटा बिन्दु दिइएको छ, चरणहरूको प्रिसेट श्रृंखलामा नमूनामा सानो मात्रामा आवाज थप्छ। चरणहरू आकारमा बढ्दै जाँदा र अनन्ततामा पुग्दा, नमूनाले सबै चिन्न सकिने विशेषताहरू गुमाउँछ र अनुक्रम एक आइसोट्रोपिक गाउसियन वक्र जस्तो देखिन थाल्छ।
पछाडि फैलिएको समयमा चरण, प्रसार मोडेल चित्रहरूमा थपिएको आवाजको प्रभावलाई उल्ट्याउन र मूल इनपुट नमूना वितरणसँग मिल्दोजुल्दो बनाउने प्रयास गरेर उत्पादित छविलाई यसको मूल आकारमा लैजान सिक्छ।
एक पूर्ण मोडेलले वास्तविक गौसियन शोर इनपुट र प्रम्प्टको साथ गर्न सक्छ। ADM-G विधि पहिलेको भन्दा भिन्न हुन्छ जुन मोडेल, या त CLIP वा अनुकूलित ट्रान्सफर्मरले इनपुट गरिएको टेक्स्ट प्रम्प्ट टोकनहरू प्रयोग गरेर पछाडिको प्रसार चरणलाई प्रभाव पार्छ।
ग्लाइड क्षमताहरू
1. छविको उत्पादन
GLIDE को सबैभन्दा लोकप्रिय र व्यापक रूपमा प्रयोग गरिएको प्रयोग सम्भवतः छवि संश्लेषण हुनेछ। यद्यपि तस्बिरहरू मामूली छन् र GLIDE मा जनावर/मानव रूपहरूसँग कठिनाइ छ, एक-शट छवि उत्पादनको सम्भावना लगभग अनन्त छ।
यसले जनावरहरू, सेलिब्रेटीहरू, ल्यान्डस्केपहरू, भवनहरू, र अधिकका फोटोहरू सिर्जना गर्न सक्छ, र यसले विभिन्न कला शैलीहरूमा साथै फोटो-वास्तविक रूपमा गर्न सक्छ। अन्वेषकहरूका लेखकहरूले दाबी गर्छन् कि GLIDE ले पाठ्य सामग्रीहरूको विस्तृत विविधतालाई भिजुअल ढाँचामा व्याख्या गर्न र अनुकूलन गर्न सक्षम छ, जस्तै तलका नमूनाहरूमा देखाइएको छ।
2. ग्लाइड इनपेन्टिङ
ग्लाइडको स्वचालित फोटो इनपेन्टिङ सबैभन्दा मनमोहक प्रयोग हो। GLIDE ले इनपुटको रूपमा अवस्थित तस्बिर लिन सक्छ, परिवर्तन गर्न आवश्यक स्थानहरूको लागि पाठ प्रम्प्टलाई दिमागमा प्रशोधन गर्न सक्छ, र त्यसपछि ती भागहरूमा सजिलैसँग सक्रिय परिमार्जनहरू गर्न सक्छ।
यसलाई अझ राम्रो नतिजाहरू उत्पादन गर्न SDEdit जस्ता सम्पादन मोडेलसँग संयोजनमा प्रयोग गरिनुपर्छ। भविष्यमा, यी जस्ता क्षमताहरूको फाइदा लिने एपहरू कोड-रहित चित्र-परिवर्तन गर्ने दृष्टिकोणहरू विकास गर्न महत्त्वपूर्ण हुन सक्छन्।
निष्कर्ष
अब जब हामी प्रक्रियामा गएका छौं, तपाईंले GLIDE ले कसरी काम गर्दछ भन्ने आधारभूत कुराहरू बुझ्नु पर्छ, साथै चित्र निर्माण र इन-इमेज परिमार्जनमा यसको क्षमताहरूको चौडाइ।
जवाफ छाड्नुस्