विषय - सूची[छिपाना][प्रदर्शन]
आप शायद यह जानते होंगे कि एक कंप्यूटर किसी चित्र का वर्णन कर सकता है।
उदाहरण के लिए, आपके बच्चों के साथ खेल रहे कुत्ते की तस्वीर का अनुवाद 'बगीचे में कुत्ते और बच्चे' के रूप में किया जा सकता है। लेकिन क्या आप जानते हैं कि अब इसका विपरीत तरीका भी संभव है? आप कुछ शब्द टाइप करते हैं, और मशीन एक नई तस्वीर तैयार करती है।
Google खोज के विपरीत, जो मौजूदा तस्वीरों को खोजती है, यह सब ताज़ा है। हाल के वर्षों में, OpenAI आश्चर्यजनक परिणामों की रिपोर्ट करने वाले अग्रणी संगठनों में से एक रहा है।
वे अपने एल्गोरिदम को बड़े पैमाने पर टेक्स्ट और चित्र डेटाबेस पर प्रशिक्षित करते हैं। उन्होंने अपने GLIDE छवि मॉडल पर एक पेपर प्रकाशित किया, जिसे लाखों तस्वीरों पर प्रशिक्षित किया गया था। फोटोरियलिज्म के मामले में, यह उनके पिछले 'DALL-E' मॉडल से बेहतर प्रदर्शन करता है।
इस पोस्ट में, हम OpenAI के GLIDE को देखेंगे, जो टेक्स्ट-निर्देशित प्रसार मॉडल के साथ फोटोरिअलिस्टिक चित्रों को बनाने और बदलने के उद्देश्य से कई आकर्षक पहलों में से एक है। चलो शुरू करें।
एचएमबी क्या है? एआई ग्लाइड खोलें?
जबकि अधिकांश छवियों को शब्दों में वर्णित किया जा सकता है, टेक्स्ट इनपुट से छवियां बनाने के लिए विशेष ज्ञान और महत्वपूर्ण समय की आवश्यकता होती है।
एआई एजेंट को प्राकृतिक भाषा संकेतों से फोटोरिअलिस्टिक चित्र बनाने की अनुमति देने से न केवल लोगों को अभूतपूर्व आसानी के साथ समृद्ध और विविध दृश्य सामग्री बनाने की अनुमति मिलती है, बल्कि बनाई गई छवियों के सरल पुनरावृत्त परिशोधन और बारीक नियंत्रण की भी अनुमति मिलती है।
GLIDE का उपयोग नई वस्तुओं को सम्मिलित करने, छाया और प्रतिबिंब बनाने, प्रदर्शन करने के लिए प्राकृतिक भाषा पाठ संकेतों का उपयोग करके मौजूदा तस्वीरों को संपादित करने के लिए किया जा सकता है। छवि पेंटिंग, और इतने पर.
यह बुनियादी रेखा चित्रों को फोटोरियलिस्टिक तस्वीरों में भी बदल सकता है, और इसमें जटिल स्थितियों के लिए असाधारण शून्य-नमूना निर्माण और मरम्मत क्षमताएं हैं।
हाल के शोध से पता चला है कि संभावना-आधारित प्रसार मॉडल उच्च गुणवत्ता वाले सिंथेटिक चित्र भी बना सकते हैं, खासकर जब एक मार्गदर्शक दृष्टिकोण के साथ जोड़ा जाता है जो विविधता और निष्ठा को संतुलित करता है।
ओपनएआई ने प्रकाशित किया निर्देशित प्रसार मॉडल मई में, जो एक क्लासिफायरियर के लेबल पर प्रसार मॉडल को सशर्त होने की अनुमति देता है। पाठ-सशर्त छवि निर्माण की समस्या के लिए निर्देशित प्रसार लाकर GLIDE इस सफलता में सुधार करता है।
प्राकृतिक भाषा विवरणों पर स्थिति के लिए एक टेक्स्ट एनकोडर का उपयोग करके 3.5 बिलियन पैरामीटर ग्लाइड डिफ्यूजन मॉडल को प्रशिक्षित करने के बाद, शोधकर्ताओं ने दो वैकल्पिक मार्गदर्शक रणनीतियों का परीक्षण किया: सीएलआईपी मार्गदर्शन और क्लासिफायर-मुक्त मार्गदर्शन।
सीएलआईपी पाठ और चित्रों के संयुक्त प्रतिनिधित्व को सीखने के लिए एक स्केलेबल तकनीक है जो एक छवि कैप्शन के कितना करीब है इसके आधार पर एक अंक प्रदान करती है।
टीम ने क्लासिफायर को सीएलआईपी मॉडल के साथ प्रतिस्थापित करके अपने प्रसार मॉडल में इस रणनीति का उपयोग किया जो मॉडलों को "मार्गदर्शित" करता है। इस बीच, क्लासिफायर-मुक्त मार्गदर्शन प्रसार मॉडल को निर्देशित करने की एक रणनीति है जिसमें एक अलग क्लासिफायरियर का प्रशिक्षण शामिल नहीं होता है।
ग्लाइड आर्किटेक्चर
GLIDE आर्किटेक्चर में तीन घटक होते हैं: एक एब्लेटेड डिफ्यूजन मॉडल (एडीएम) जिसे 64 × 64 छवि उत्पन्न करने के लिए प्रशिक्षित किया जाता है, एक टेक्स्ट मॉडल (ट्रांसफार्मर) जो टेक्स्ट प्रॉम्प्ट के माध्यम से छवि निर्माण को प्रभावित करता है, और एक अपसैंपलिंग मॉडल जो हमारे छोटे 64 × 64 को परिवर्तित करता है। छवियाँ अधिक व्याख्या योग्य 256 x 256 पिक्सेल की।
पहले दो घटक चित्र निर्माण प्रक्रिया को नियंत्रित करने के लिए एक साथ काम करते हैं ताकि यह टेक्स्ट प्रॉम्प्ट को उचित रूप से प्रतिबिंबित कर सके, जबकि बाद वाले को हमारे द्वारा बनाई गई छवियों को समझने में आसान बनाने के लिए आवश्यक है। GLIDE परियोजना किससे प्रेरित थी? 2021 में प्रकाशित रिपोर्ट इससे पता चला कि एडीएम तकनीकों ने चित्र नमूना गुणवत्ता के मामले में वर्तमान में लोकप्रिय, अत्याधुनिक जेनरेटर मॉडल से बेहतर प्रदर्शन किया है।
एडीएम के लिए, GLIDE लेखकों ने धारीवाल और निकोल के समान ImageNet 64 x 64 मॉडल को नियोजित किया, लेकिन 512 के बजाय 64 चैनलों के साथ। इसके परिणामस्वरूप ImageNet मॉडल में लगभग 2.3 बिलियन पैरामीटर हैं।
धारीवाल और निकोल के विपरीत, GLIDE टीम चित्र निर्माण प्रक्रिया पर अधिक प्रत्यक्ष नियंत्रण रखना चाहती थी, इस प्रकार उन्होंने दृश्य मॉडल को ध्यान-सक्षम ट्रांसफार्मर के साथ जोड़ दिया। GLIDE आपको टेक्स्ट इनपुट संकेतों को संसाधित करके चित्र निर्माण प्रक्रिया आउटपुट पर कुछ नियंत्रण देता है।
यह ट्रांसफॉर्मर मॉडल को फ़ोटो और कैप्शन के उपयुक्त बड़े डेटासेट (DALL-E प्रोजेक्ट में नियोजित डेटा के समान) पर प्रशिक्षित करके पूरा किया जाता है।
इसे कंडीशन करने के लिए टेक्स्ट को शुरू में K टोकन की एक श्रृंखला में एन्कोड किया गया है। उसके बाद, टोकन को ट्रांसफार्मर मॉडल में लोड किया जाता है। फिर ट्रांसफार्मर के आउटपुट का उपयोग दो तरीकों से किया जा सकता है। एडीएम मॉडल के लिए, क्लास एम्बेडिंग के बजाय अंतिम टोकन एम्बेडिंग का उपयोग किया जाता है।
दूसरा, टोकन एम्बेडिंग की अंतिम परत - फीचर वैक्टर की एक श्रृंखला - को एडीएम मॉडल में प्रत्येक ध्यान परत के आयामों के लिए स्वतंत्र रूप से प्रक्षेपित किया जाता है और प्रत्येक ध्यान संदर्भ में संयोजित किया जाता है।
वास्तव में, यह एडीएम मॉडल को इनपुट शब्दों और उनकी संबंधित छवियों की सीखी गई समझ के आधार पर, एक अद्वितीय और फोटोरिअलिस्टिक फैशन में समान टेक्स्ट टोकन के नए संयोजनों से एक तस्वीर तैयार करने में सक्षम बनाता है। इस टेक्स्ट-एन्कोडिंग ट्रांसफार्मर में 1.2 बिलियन पैरामीटर हैं और 24 की चौड़ाई के साथ 2048 बचे हुए ब्लॉकों को नियोजित करता है।
अंत में, अपसैंपलर डिफ्यूजन मॉडल में लगभग 1.5 बिलियन पैरामीटर शामिल हैं और यह मूल मॉडल से भिन्न है क्योंकि इसका टेक्स्ट एनकोडर बेस मॉडल की तुलना में 1024 और 384 बेस चैनलों की चौड़ाई के साथ छोटा है। जैसा कि नाम से पता चलता है, यह मॉडल मशीनों और मनुष्यों दोनों के लिए व्याख्या में सुधार करने के लिए नमूने के उन्नयन में सहायता करता है।
प्रसार मॉडल
GLIDE एडीएम (“निर्देशित” के लिए एडीएम-जी) के अपने संस्करण का उपयोग करके छवियां उत्पन्न करता है। एडीएम-जी मॉडल प्रसार यू-नेट मॉडल का एक संशोधन है। एक प्रसार यू-नेट मॉडल वीएई, जीएएन और ट्रांसफार्मर जैसी अधिक सामान्य छवि संश्लेषण तकनीकों से नाटकीय रूप से भिन्न होता है।
वे धीरे-धीरे डेटा में यादृच्छिक शोर को इंजेक्ट करने के लिए प्रसार चरणों की एक मार्कोव श्रृंखला का निर्माण करते हैं, और फिर प्रसार प्रक्रिया को उलटना सीखते हैं और अकेले शोर से आवश्यक डेटा नमूनों का पुनर्निर्माण करते हैं। यह दो चरणों में संचालित होता है: आगे और पीछे का प्रसार।
आगे की प्रसार विधि, नमूने के वास्तविक वितरण से एक डेटा बिंदु दिए जाने पर, चरणों की पूर्व निर्धारित श्रृंखला में नमूने में थोड़ी मात्रा में शोर जोड़ती है। जैसे-जैसे चरण आकार में बढ़ते हैं और अनंत तक पहुंचते हैं, नमूना सभी पहचानने योग्य विशेषताओं को खो देता है और अनुक्रम एक आइसोट्रोपिक गाऊसी वक्र जैसा दिखने लगता है।
पिछड़े प्रसार के दौरान चरण, प्रसार मॉडल चित्रों पर अतिरिक्त शोर के प्रभाव को उलटना सीखता है और मूल इनपुट नमूना वितरण के समान प्रयास करके उत्पादित छवि को उसके मूल आकार में वापस ले जाता है।
एक पूर्ण मॉडल वास्तविक गाऊसी शोर इनपुट और एक संकेत के साथ ऐसा कर सकता है। एडीएम-जी विधि पिछले एक से भिन्न होती है जिसमें एक मॉडल, या तो सीएलआईपी या एक अनुकूलित ट्रांसफार्मर, इनपुट किए गए टेक्स्ट प्रॉम्प्ट टोकन को नियोजित करके पिछड़े प्रसार चरण को प्रभावित करता है।
ग्लाइड क्षमताएँ
1. छवि का निर्माण
GLIDE का सबसे लोकप्रिय और व्यापक रूप से उपयोग किया जाने वाला उपयोग संभवतः छवि संश्लेषण होगा। हालाँकि चित्र मामूली हैं और GLIDE को पशु/मानव रूपों के साथ कठिनाई होती है, एक-शॉट छवि उत्पादन की संभावना लगभग अनंत है।
यह जानवरों, मशहूर हस्तियों, परिदृश्यों, इमारतों और बहुत कुछ की तस्वीरें बना सकता है, और यह इसे विभिन्न कला शैलियों के साथ-साथ फोटो-यथार्थवादी रूप से भी कर सकता है। शोधकर्ताओं के लेखक इस बात पर जोर देते हैं कि GLIDE विभिन्न प्रकार के पाठ्य इनपुट को दृश्य प्रारूप में व्याख्या करने और अनुकूलित करने में सक्षम है, जैसा कि नीचे दिए गए नमूनों में देखा गया है।
2. पेंटिंग में ग्लाइड
ग्लाइड की स्वचालित फोटो इनपेंटिंग यकीनन सबसे आकर्षक उपयोग है। GLIDE एक मौजूदा तस्वीर को इनपुट के रूप में ले सकता है, इसे उन स्थानों के लिए टेक्स्ट प्रॉम्प्ट के साथ संसाधित कर सकता है जिन्हें बदलने की आवश्यकता है, और फिर आसानी से उन हिस्सों में सक्रिय संशोधन कर सकता है।
इसे और भी बेहतर परिणाम देने के लिए SDEdit जैसे संपादन मॉडल के साथ संयोजन में उपयोग किया जाना चाहिए। भविष्य में, ऐसी क्षमताओं का लाभ उठाने वाले ऐप्स कोड-मुक्त चित्र-परिवर्तन दृष्टिकोण विकसित करने में महत्वपूर्ण हो सकते हैं।
निष्कर्ष
अब जब हम इस प्रक्रिया से गुजर चुके हैं, तो आपको GLIDE कैसे काम करता है इसके मूल सिद्धांतों को समझना चाहिए, साथ ही चित्र निर्माण और इन-इमेज संशोधन में इसकी क्षमताओं की व्यापकता को भी समझना चाहिए।
एक जवाब लिखें