भाषा पहचान और पीढ़ी के लिए प्रशिक्षित किए गए बड़े तंत्रिका नेटवर्क ने हाल के वर्षों में विभिन्न कार्यों में उत्कृष्ट परिणाम प्रदर्शित किए हैं। GPT-3 ने साबित किया कि बड़े भाषा मॉडल (एलएलएम) का उपयोग कुछ-शॉट सीखने के लिए किया जा सकता है और व्यापक कार्य-विशिष्ट डेटा या मॉडल मापदंडों को बदलने की आवश्यकता के बिना उत्कृष्ट परिणाम प्राप्त कर सकते हैं।
Google, सिलिकॉन वैली टेक दिग्गज, ने अगली पीढ़ी के AI-भाषा मॉडल के रूप में दुनिया भर के तकनीकी उद्योग के लिए PaLM, या पाथवे लैंग्वेज मॉडल पेश किया है। Google ने एक नया शामिल किया है कृत्रिम बुद्धिमत्ता एआई-भाषा मॉडल की गुणवत्ता में सुधार करने के लिए रणनीतिक उद्देश्य के साथ पीएलएम में वास्तुकला।
इस पोस्ट में, हम पाम एल्गोरिथम की विस्तार से जांच करेंगे, जिसमें इसे प्रशिक्षित करने के लिए उपयोग किए जाने वाले पैरामीटर, इसके द्वारा हल की जाने वाली समस्या और बहुत कुछ शामिल हैं।
एचएमबी क्या है? Google का PaLM एल्गोरिथम?
पाथवे लैंग्वेज मॉडल क्या है हथेली के लिए खड़ा है। यह पाथवे एआई आर्किटेक्चर को मजबूत करने के लिए Google द्वारा विकसित एक नया एल्गोरिदम है। संरचना का मुख्य लक्ष्य एक बार में एक लाख अलग-अलग गतिविधियां करना है।
इनमें जटिल डेटा को समझने से लेकर निगमनात्मक तर्क तक सब कुछ शामिल है। PaLM में भाषा और तर्क कार्यों में वर्तमान AI अत्याधुनिक के साथ-साथ मनुष्यों को पार करने की क्षमता है।
इसमें फ्यू-शॉट लर्निंग शामिल है, जो नकल करता है कि मनुष्य नई चीजें कैसे सीखते हैं और नई चुनौतियों से निपटने के लिए ज्ञान के विविध बिट्स को जोड़ते हैं, जो एक ऐसी मशीन के लाभ के साथ हैं जो नई चुनौतियों को हल करने के लिए अपने सभी ज्ञान का उपयोग कर सकती है; PaLM में इस कौशल का एक उदाहरण इसकी एक चुटकुला समझाने की क्षमता है जिसे उसने पहले कभी नहीं सुना है।
PaLM ने विभिन्न चुनौतीपूर्ण कार्यों पर कई सफलता कौशल का प्रदर्शन किया, जिसमें भाषा की समझ और निर्माण, मल्टीस्टेप अंकगणितीय कोड-संबंधित गतिविधियाँ, सामान्य ज्ञान तर्क, अनुवाद, और बहुत कुछ शामिल हैं।
इसने बहुभाषी एनएलपी सेटों का उपयोग करके जटिल मुद्दों को हल करने की अपनी क्षमता का प्रदर्शन किया है। PaLM का उपयोग दुनिया भर के तकनीकी बाजार द्वारा कारण और प्रभाव, वैचारिक संयोजन, विशिष्ट खेल और कई अन्य चीजों में अंतर करने के लिए किया जा सकता है।
यह बहु-चरणीय तार्किक अनुमान, गहरी भाषा, वैश्विक ज्ञान और अन्य तकनीकों का उपयोग करके कई संदर्भों के लिए गहन स्पष्टीकरण भी उत्पन्न कर सकता है।
Google ने PaLM एल्गोरिथम कैसे विकसित किया?
PaLM में Google के सफल प्रदर्शन के लिए, पाथवे को 540 बिलियन पैरामीटर तक स्केल करने के लिए निर्धारित किया गया है। यह एक ऐसे मॉडल के रूप में पहचाना जाता है जो कई डोमेन में कुशलतापूर्वक और प्रभावी ढंग से सामान्यीकरण कर सकता है। Google में Pathways त्वरक के लिए वितरित कंप्यूटिंग विकसित करने के लिए समर्पित है।
PaLM एक डिकोडर-ओनली ट्रांसफॉर्मर मॉडल है जिसे पाथवे सिस्टम का उपयोग करके प्रशिक्षित किया गया है। Google के अनुसार, PaLM ने कई कार्यभारों में अत्याधुनिक कुछ-शॉट प्रदर्शन सफलतापूर्वक हासिल किया है। PaLM ने पहली बार 6144 चिप्स के रूप में जाने जाने वाले सबसे बड़े TPU-आधारित सिस्टम कॉन्फ़िगरेशन में प्रशिक्षण का विस्तार करने के लिए पाथवे सिस्टम का उपयोग किया है।
एआई-भाषा मॉडल के लिए एक प्रशिक्षण डेटासेट अंग्रेजी और अन्य बहुभाषी डेटासेट के मिश्रण से बना होता है। "दोषरहित" शब्दावली के साथ, इसमें उच्च-गुणवत्ता वाली वेब सामग्री, चर्चाएँ, पुस्तकें, GitHub कोड, विकिपीडिया, और बहुत कुछ शामिल हैं। दोषरहित शब्दावली को व्हाइटस्पेस बनाए रखने और यूनिकोड वर्णों को तोड़ने के लिए पहचाना जाता है जो शब्दावली में बाइट्स में नहीं हैं।
PaLM को Google और Pathways द्वारा एक मानक ट्रांसफॉर्मर मॉडल आर्किटेक्चर और एक डिकोडर कॉन्फ़िगरेशन का उपयोग करके विकसित किया गया था जिसमें SwiGLU एक्टिवेशन, समानांतर परतें, RoPE एम्बेडिंग, साझा इनपुट-आउटपुट एम्बेडिंग, बहु-क्वेरी ध्यान, और कोई पूर्वाग्रह या शब्दावली शामिल नहीं थी। दूसरी ओर, PaLM, Google और Pathways के AI-भाषा मॉडल के लिए एक ठोस आधार प्रदान करने के लिए तैयार है।
PaLM को प्रशिक्षित करने के लिए प्रयुक्त पैरामीटर्स
पिछले साल, Google ने पाथवे लॉन्च किया, एक एकल मॉडल जिसे हजारों काम करने के लिए प्रशिक्षित किया जा सकता है, यदि लाखों नहीं, तो "अगली पीढ़ी का एआई आर्किटेक्चर" कहा जाता है क्योंकि यह केवल एक काम करने के लिए प्रशिक्षित होने की मौजूदा मॉडल की सीमाओं को पार कर सकता है। . मौजूदा मॉडलों की क्षमताओं का विस्तार करने के बजाय, एक ही कार्य को पूरा करने के लिए अक्सर नए मॉडल नीचे से ऊपर तक बनाए जाते हैं।
नतीजतन, उन्होंने हजारों विभिन्न गतिविधियों के लिए हजारों मॉडल बनाए हैं। यह एक समय लेने वाला और संसाधन-गहन कार्य है।
Google ने पाथवे के माध्यम से साबित कर दिया कि एक एकल मॉडल कई तरह की गतिविधियों को संभाल सकता है और नए कार्यों को अधिक तेज़ी से और कुशलता से सीखने के लिए वर्तमान प्रतिभाओं को आकर्षित और संयोजित कर सकता है।
मल्टीमॉडल मॉडल जिसमें एक ही समय में दृष्टि, भाषाई समझ और श्रवण प्रसंस्करण शामिल हैं, को पाथवे के माध्यम से सक्षम किया जा सकता है। पाथवे लैंग्वेज मॉडल (PaLM) अपने 4 बिलियन पैरामीटर मॉडल की बदौलत कई TPU v540 पॉड्स में एकल मॉडल के प्रशिक्षण की अनुमति देता है।
PaLM, एक सघन डिकोडर-केवल ट्रांसफार्मर मॉडल, वर्कलोड की एक विस्तृत श्रृंखला में अत्याधुनिक कुछ-शॉट प्रदर्शन को बेहतर बनाता है। PaLM को दो TPU v4 पॉड्स पर प्रशिक्षित किया जा रहा है जो एक डेटा सेंटर नेटवर्क (DCN) के माध्यम से जुड़े हुए हैं।
यह मॉडल और डेटा समानता दोनों का लाभ उठाता है। शोधकर्ताओं ने PaLM के लिए प्रत्येक पॉड में 3072 TPU v4 प्रोसेसर लगाए, जो 768 होस्ट से जुड़े थे। शोधकर्ताओं के मुताबिक, यह अब तक का सबसे बड़ा टीपीयू कॉन्फ़िगरेशन है, जो उन्हें पाइपलाइन समानांतरता को नियोजित किए बिना प्रशिक्षण को स्केल करने की इजाजत देता है।
पाइप लाइनिंग सामान्य रूप से एक पाइपलाइन के माध्यम से सीपीयू से निर्देश एकत्र करने की प्रक्रिया है। मॉडल की परतों को चरणों में विभाजित किया जाता है जिन्हें पाइपलाइन मॉडल समांतरता (या पाइपलाइन समांतरता) के माध्यम से समानांतर में संसाधित किया जा सकता है।
सक्रियण मेमोरी अगले चरण में भेजी जाती है जब एक चरण माइक्रो-बैच के लिए फॉरवर्ड पास को पूरा करता है। जब निम्न चरण अपने पिछड़े प्रसार को पूरा करता है तो ग्रेडिएंट्स को पीछे की ओर भेजा जाता है।
PaLM निर्णायक क्षमताएं
PaLM कठिन कार्यों की एक श्रृंखला में अभूतपूर्व क्षमता प्रदर्शित करता है। यहाँ कई उदाहरण हैं:
1. भाषा निर्माण और समझ
PaLM को अंग्रेजी में 29 विभिन्न NLP कार्यों पर परीक्षण के लिए रखा गया था।
कुछ-शॉट के आधार पर, PaLM 540B ने पिछले बड़े मॉडल जैसे GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, और LaMDA को 28 में से 29 कार्यों में बेहतर प्रदर्शन किया, जिसमें ओपन-डोमेन क्लोज्ड-बुक वैरिएंट प्रश्न-उत्तर कार्य शामिल हैं। , क्लोज़ और वाक्य-पूर्ण कार्य, विनोग्राड-शैली के कार्य, संदर्भ में पढ़ने की समझ के कार्य, सामान्य ज्ञान के कार्य, सुपरग्लू कार्य, और प्राकृतिक अनुमान।
कई बड़े-बेंच कार्यों पर, PaLM उत्कृष्ट प्राकृतिक भाषा व्याख्या और पीढ़ी कौशल का प्रदर्शन करता है। उदाहरण के लिए, मॉडल कारण और प्रभाव के बीच अंतर कर सकता है, कुछ स्थितियों में वैचारिक संयोजनों को समझ सकता है, और यहां तक कि इमोजी से फिल्म का अनुमान भी लगा सकता है। भले ही प्रशिक्षण कोष का केवल 22% गैर-अंग्रेज़ी है, लेकिन PaLM अंग्रेज़ी NLP कार्यों के अलावा, अनुवाद सहित बहुभाषी NLP बेंचमार्क पर अच्छा प्रदर्शन करता है।
2. तर्क Reason
PaLM मल्टीस्टेप अंकगणित या कॉमनसेंस रीजनिंग की आवश्यकता वाली रीजनिंग चुनौतियों पर सफलता कौशल का प्रदर्शन करने के लिए चेन-ऑफ-थॉट के साथ मॉडल आकार को मिश्रित करता है।
पिछले एलएलएम, जैसे गोफर, को प्रदर्शन बढ़ाने के मामले में मॉडल के आकार से कम लाभ हुआ। PaLM 540B ने तीन अंकगणितीय और दो कॉमनसेंस थिंकिंग डेटासेट पर चेन-ऑफ-थॉट प्रॉम्प्टिंग के साथ अच्छा प्रदर्शन किया।
PaLM 55% के पिछले सर्वश्रेष्ठ स्कोर से बेहतर प्रदर्शन करता है, जिसे 3 समस्याओं के प्रशिक्षण सेट के साथ GPT-175 7500B मॉडल को फाइन-ट्यूनिंग करके और GSM58K में 8 प्रतिशत मुद्दों को हल करने के लिए एक बाहरी कैलकुलेटर और सत्यापनकर्ता के साथ जोड़कर प्राप्त किया गया था। 8-शॉट प्रॉम्प्टिंग का उपयोग करके हजारों कठिन ग्रेड स्कूल स्तर के गणित के प्रश्नों का बेंचमार्क।
यह नया स्कोर विशेष रूप से उल्लेखनीय है क्योंकि यह 60-9 साल के बच्चों द्वारा अनुभव की जाने वाली बाधाओं के 12% औसत तक पहुंचता है। यह उन मूल चुटकुलों का भी जवाब दे सकता है जो इंटरनेट पर उपलब्ध नहीं हैं।
3. कोड जनरेशन
एलएलएम को कोडिंग कार्यों में भी अच्छा प्रदर्शन करने के लिए दिखाया गया है, जिसमें एक प्राकृतिक भाषा विवरण (पाठ-से-कोड) से कोड उत्पन्न करना, भाषाओं के बीच कोड का अनुवाद करना और संकलन त्रुटियों को हल करना शामिल है। पूर्व-प्रशिक्षण डेटासेट में केवल 5% कोड होने के बावजूद, PaLM 540B एकल मॉडल में कोडिंग और प्राकृतिक भाषा दोनों कार्यों पर अच्छा प्रदर्शन करता है।
इसका कुछ-शॉट प्रदर्शन अविश्वसनीय है, क्योंकि यह 12 गुना कम पायथन कोड के साथ प्रशिक्षण के दौरान फाइन-ट्यून कोडेक्स 50B से मेल खाता है। यह खोज पूर्व निष्कर्षों के साथ वापस आती है कि बड़े मॉडल छोटे मॉडल की तुलना में अधिक नमूना कुशल हो सकते हैं क्योंकि वे अधिक प्रभावी ढंग से कई से सीखने को स्थानांतरित कर सकते हैं प्रोग्रामिंग की भाषाएँ और सादा भाषा डेटा।
निष्कर्ष
PaLM पाथवे सिस्टम की क्षमता को दो टीपीयू v4 पॉड्स पर हजारों एक्सेलेरेटर प्रोसेसर तक स्केल करने की क्षमता दिखाता है, जो एक घने डिकोडर-ओनली ट्रांसफॉर्मर मॉडल के अच्छी तरह से अध्ययन किए गए, अच्छी तरह से स्थापित नुस्खा के साथ 540-बिलियन पैरामीटर मॉडल को प्रभावी ढंग से प्रशिक्षित करता है।
यह मॉडल स्केल की सीमाओं को आगे बढ़ाते हुए प्राकृतिक भाषा प्रसंस्करण, तर्क और कोडिंग चुनौतियों की एक श्रृंखला में सफलता के कुछ-शॉट प्रदर्शन प्राप्त करता है।
एक जवाब लिखें