भाषा ओळखण्यासाठी आणि निर्मितीसाठी प्रशिक्षित केलेल्या मोठ्या न्यूरल नेटवर्क्सनी अलिकडच्या वर्षांत विविध कार्यांमध्ये उत्कृष्ट परिणाम प्रदर्शित केले आहेत. GPT-3 ने सिद्ध केले की मोठ्या लँग्वेज मॉडेल्स (LLMs) चा वापर काही-शॉट लर्निंगसाठी केला जाऊ शकतो आणि विस्तृत कार्य-विशिष्ट डेटा किंवा मॉडेल पॅरामीटर्स बदलल्याशिवाय उत्कृष्ट परिणाम मिळवू शकतो.
Google, सिलिकॉन व्हॅली टेक behemoth, ने PaLM, किंवा Pathways Language Model, जगभरातील टेक उद्योगाला पुढील पिढीचे AI-भाषा मॉडेल म्हणून सादर केले आहे. Google ने एक नवीन समाविष्ट केले आहे कृत्रिम बुद्धिमत्ता AI-भाषा मॉडेलची गुणवत्ता सुधारण्याच्या धोरणात्मक उद्दिष्टांसह PaLM मध्ये आर्किटेक्चर.
या पोस्टमध्ये, आम्ही पाम अल्गोरिदमचे तपशीलवार परीक्षण करू, ज्यामध्ये ते प्रशिक्षित करण्यासाठी वापरण्यात येणारे पॅरामीटर्स, ते सोडवणारी समस्या आणि बरेच काही समाविष्ट आहे.
काय आहे Google चे PaLM अल्गोरिदम?
पाथवेज लँग्वेज मॉडेल म्हणजे काय पाम याचा अर्थ. Google ने Pathways AI आर्किटेक्चर मजबूत करण्यासाठी विकसित केलेला हा एक नवीन अल्गोरिदम आहे. एकाच वेळी दशलक्ष भिन्न क्रियाकलाप करणे हे संरचनेचे मुख्य लक्ष्य आहे.
यामध्ये जटिल डेटाचा उलगडा करण्यापासून ते डिडक्टिव तर्कापर्यंत सर्व काही समाविष्ट आहे. PaLM मध्ये सध्याच्या AI अत्याधुनिक तसेच भाषा आणि तर्काच्या कार्यात मानवांना मागे टाकण्याची क्षमता आहे.
यामध्ये फ्यू-शॉट लर्निंगचा समावेश आहे, जे नवीन आव्हाने सोडवण्यासाठी यंत्राच्या फायद्यासह, नवीन आव्हाने हाताळण्यासाठी मानव नवीन गोष्टी कशा शिकतात आणि ज्ञानाच्या विविध तुकड्या एकत्र करतात. PaLM मधील या कौशल्याचे एक उदाहरण म्हणजे यापूर्वी कधीही न ऐकलेला विनोद समजावून सांगण्याची क्षमता.
PaLM ने भाषेचे आकलन आणि निर्मिती, मल्टीस्टेप अंकगणित कोड-संबंधित क्रियाकलाप, सामान्य ज्ञान तर्क, भाषांतर आणि बरेच काही यासह विविध आव्हानात्मक कार्यांवर अनेक यशस्वी कौशल्ये प्रदर्शित केली.
बहुभाषिक NLP संच वापरून क्लिष्ट समस्या सोडवण्याची क्षमता त्यांनी दाखवली आहे. PaLM चा वापर जगभरातील टेक मार्केटद्वारे कारण आणि परिणाम, संकल्पनात्मक संयोजन, वेगळे खेळ आणि इतर अनेक गोष्टींमध्ये फरक करण्यासाठी केला जाऊ शकतो.
हे मल्टीस्टेप लॉजिकल इन्फरन्स, सखोल भाषा, जागतिक ज्ञान आणि इतर तंत्रांचा वापर करून अनेक संदर्भांसाठी सखोल स्पष्टीकरण देखील तयार करू शकते.
Google ने PaLM अल्गोरिदम कसा विकसित केला?
PaLM मधील Google च्या यशस्वी कामगिरीसाठी, मार्ग 540 अब्ज पॅरामीटर्सपर्यंत स्केल करण्यासाठी अनुसूचित आहेत. हे एक मॉडेल म्हणून ओळखले जाते जे कार्यक्षमतेने आणि प्रभावीपणे असंख्य डोमेनवर सामान्यीकरण करू शकते. Google वरील Pathways प्रवेगकांसाठी वितरित संगणन विकसित करण्यासाठी समर्पित आहे.
PaLM हे डिकोडर-केवळ ट्रान्सफॉर्मर मॉडेल आहे जे पाथवे सिस्टम वापरून प्रशिक्षित केले गेले आहे. Google च्या म्हणण्यानुसार, PaLM ने अनेक वर्कलोडमध्ये अत्याधुनिक काही-शॉट कामगिरी यशस्वीरित्या साध्य केली आहे. PaLM ने पहिल्यांदाच 6144 चिप्स म्हणून ओळखल्या जाणाऱ्या सर्वात मोठ्या TPU-आधारित सिस्टम कॉन्फिगरेशनमध्ये प्रशिक्षणाचा विस्तार करण्यासाठी पाथवे सिस्टमचा वापर केला आहे.
AI-भाषा मॉडेलसाठी प्रशिक्षण डेटासेट इंग्रजी आणि इतर बहुभाषिक डेटासेटच्या मिश्रणाने बनलेला आहे. "निष्पत्ती" शब्दसंग्रहासह, त्यात उच्च-गुणवत्तेची वेब सामग्री, चर्चा, पुस्तके, GitHub कोड, विकिपीडिया आणि बरेच काही समाविष्ट आहे. दोषरहित शब्दसंग्रह व्हाइटस्पेस राखून ठेवण्यासाठी आणि शब्दसंग्रहात नसलेल्या युनिकोड वर्णांना बाइटमध्ये मोडण्यासाठी ओळखले जाते.
PaLM Google आणि Pathways द्वारे एक मानक ट्रान्सफॉर्मर मॉडेल आर्किटेक्चर आणि डीकोडर कॉन्फिगरेशनचा वापर करून विकसित केले गेले आहे ज्यात SwiGLU सक्रियकरण, समांतर स्तर, RoPE एम्बेडिंग, सामायिक इनपुट-आउटपुट एम्बेडिंग, मल्टी-क्वेरी अटेन्शन आणि कोणतेही पूर्वग्रह किंवा शब्दसंग्रह समाविष्ट नाही. दुसरीकडे, PaLM Google आणि Pathways च्या AI-भाषा मॉडेलसाठी ठोस आधार प्रदान करण्यासाठी तयार आहे.
PaLM प्रशिक्षित करण्यासाठी वापरलेले मापदंड
गेल्या वर्षी, Google ने Pathways लाँच केले, एक एकल मॉडेल ज्याला लाखो नाही तर हजारो गोष्टी करण्यासाठी प्रशिक्षित केले जाऊ शकते - "नेक्स्ट-जनरेशन AI आर्किटेक्चर" म्हणून डब केले गेले कारण ते विद्यमान मॉडेल्सच्या केवळ एक गोष्ट करण्यासाठी प्रशिक्षित होण्याच्या मर्यादांवर मात करू शकते. . सध्याच्या मॉडेल्सच्या क्षमतांचा विस्तार करण्याऐवजी, एकच काम पूर्ण करण्यासाठी नवीन मॉडेल अनेकदा तळापासून तयार केले जातात.
परिणामी, त्यांनी हजारो विविध उपक्रमांसाठी हजारो मॉडेल्स तयार केली आहेत. हे एक वेळ घेणारे आणि संसाधन-केंद्रित कार्य आहे.
Google ने Pathways द्वारे सिद्ध केले की एकच मॉडेल विविध क्रियाकलाप हाताळू शकते आणि नवीन कार्ये अधिक जलद आणि कार्यक्षमतेने शिकण्यासाठी सध्याच्या प्रतिभांना आकर्षित करू शकते आणि एकत्र करू शकते.
एकाच वेळी दृष्टी, भाषिक आकलन आणि श्रवण प्रक्रिया यांचा समावेश असलेली मल्टीमॉडल मॉडेल्स मार्गांद्वारे सक्षम केली जाऊ शकतात. पाथवेज लँग्वेज मॉडेल (PaLM) त्याच्या 4 अब्ज पॅरामीटर मॉडेलमुळे असंख्य TPU v540 पॉड्समध्ये एकाच मॉडेलच्या प्रशिक्षणास अनुमती देते.
PaLM, एक दाट डीकोडर-केवळ ट्रान्सफॉर्मर मॉडेल, वर्कलोडच्या विस्तृत श्रेणीमध्ये अत्याधुनिक काही-शॉट कार्यप्रदर्शनास मागे टाकते. PaLM ला डेटा सेंटर नेटवर्क (DCN) द्वारे जोडलेल्या दोन TPU v4 पॉड्सवर प्रशिक्षित केले जात आहे.
हे मॉडेल आणि डेटा समांतरता दोन्हीचा फायदा घेते. संशोधकांनी PaLM साठी प्रत्येक Pod मध्ये 3072 TPU v4 प्रोसेसर लावले, जे 768 होस्टशी जोडलेले होते. संशोधकांच्या मते, हे अद्याप उघड झालेले सर्वात मोठे TPU कॉन्फिगरेशन आहे, ज्यामुळे त्यांना पाइपलाइन समांतरता न वापरता प्रशिक्षण स्केल करण्याची परवानगी मिळते.
पाईप लाईनिंग ही सर्वसाधारणपणे पाइपलाइनद्वारे CPU मधून सूचना गोळा करण्याची प्रक्रिया आहे. मॉडेलचे स्तर टप्प्याटप्प्याने विभागले गेले आहेत ज्यावर पाइपलाइन मॉडेल समांतरता (किंवा पाइपलाइन समांतरता) द्वारे समांतर प्रक्रिया केली जाऊ शकते.
जेव्हा एक टप्पा मायक्रो-बॅचसाठी फॉरवर्ड पास पूर्ण करतो तेव्हा सक्रियकरण मेमरी पुढील चरणावर पाठविली जाते. जेव्हा खालील स्टेजचा मागचा प्रसार पूर्ण होतो तेव्हा ग्रेडियंट्स मागील बाजूस पाठवले जातात.
PaLM ब्रेकथ्रू क्षमता
PaLM कठीण कामांच्या श्रेणीमध्ये ग्राउंड ब्रेकिंग क्षमता प्रदर्शित करते. येथे अनेक उदाहरणे आहेत:
1. भाषा निर्मिती आणि समज
PaLM ची इंग्रजीमध्ये 29 भिन्न NLP कार्यांवर चाचणी घेण्यात आली.
काही-शॉट आधारावर, PaLM 540B ने GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, आणि LaMDA सारख्या 28 पैकी 29 टास्कवर, ओपन-डोमेन क्लोज-बुक व्हेरिएंट प्रश्न-उत्तर कार्यांसह मागील मोठ्या मॉडेलला मागे टाकले. , क्लोज आणि वाक्य-पूर्ण कार्ये, विनोग्राड-शैलीची कार्ये, संदर्भातील वाचन आकलन कार्ये, कॉमनसेन्स तर्क कार्ये, सुपरग्लू कार्ये आणि नैसर्गिक अनुमान.
अनेक BIG-बेंच कार्यांवर, PaLM उत्कृष्ट नैसर्गिक भाषा व्याख्या आणि पिढी कौशल्ये प्रदर्शित करते. उदाहरणार्थ, मॉडेल कारण आणि परिणाम यांच्यात फरक करू शकतो, विशिष्ट परिस्थितींमध्ये संकल्पनात्मक संयोजन समजू शकतो आणि इमोजीवरून चित्रपटाचा अंदाज लावू शकतो. जरी प्रशिक्षण कॉर्पसपैकी फक्त 22% गैर-इंग्रजी असले तरी, PaLM इंग्रजी NLP कार्यांव्यतिरिक्त भाषांतरासह, बहुभाषी NLP बेंचमार्कवर चांगले कार्य करते.
2. तर्क करणे
PaLM चेन-ऑफ-थॉटसह मॉडेल आकाराचे मिश्रण करते, ज्यामुळे बहु-चरण अंकगणित किंवा कॉमनसेन्स रिझनिंगची आवश्यकता असलेल्या तर्कसंगतीच्या आव्हानांवर यशस्वी कौशल्ये प्रदर्शित करण्यासाठी प्रॉम्प्ट करते.
गोफर सारख्या मागील LLM ला कामगिरी वाढवण्याच्या दृष्टीने मॉडेल आकाराचा कमी फायदा झाला. चेन-ऑफ-थॉट प्रॉम्प्टिंगसह PaLM 540B ने तीन अंकगणित आणि दोन कॉमनसेन्स थिंकिंग डेटासेटवर चांगले काम केले.
PaLM ने 55% च्या पूर्वीच्या सर्वोत्तम स्कोअरला मागे टाकले, जे GPT-3 175B मॉडेलला 7500 समस्यांच्या प्रशिक्षण संचासह फाइन-ट्यून करून आणि GSM58K मधील 8 टक्के समस्यांचे निराकरण करण्यासाठी बाह्य कॅल्क्युलेटर आणि पडताळकासह एकत्र करून प्राप्त केले. 8-शॉट प्रॉम्प्टिंग वापरून हजारो कठीण शालेय स्तरावरील गणित प्रश्नांचा बेंचमार्क.
हा नवीन स्कोअर विशेषतः लक्षात घेण्याजोगा आहे कारण तो 60-9 वर्षांच्या मुलांनी अनुभवलेल्या अडथळ्यांच्या 12% सरासरीपर्यंत पोहोचतो. हे इंटरनेटवर उपलब्ध नसलेल्या मूळ विनोदांना देखील प्रतिसाद देऊ शकते.
3. कोड निर्मिती
नैसर्गिक भाषेच्या वर्णनातून कोड तयार करणे (टेक्स्ट-टू-कोड), भाषांमधील कोडचे भाषांतर करणे आणि संकलनातील त्रुटींचे निराकरण करणे यासह कोडिंग कार्यांमध्ये LLM चांगले कार्य करतात हे देखील दर्शविले गेले आहे. प्री-ट्रेनिंग डेटासेटमध्ये केवळ 5% कोड असूनही, PaLM 540B एकाच मॉडेलमध्ये कोडींग आणि नैसर्गिक भाषा या दोन्ही कार्यांवर उत्तम कामगिरी करते.
त्याची काही-शॉट कामगिरी अविश्वसनीय आहे, कारण ती 12 पट कमी पायथन कोडसह प्रशिक्षण घेत असताना बारीक-ट्यून केलेल्या कोडेक्स 50B शी जुळते. हे शोध पूर्वीच्या निष्कर्षांसह समर्थन करते की मोठे मॉडेल लहान मॉडेलपेक्षा अधिक नमुना कार्यक्षम असू शकतात कारण ते अधिक प्रभावीपणे एकाधिकमधून शिक्षण हस्तांतरित करू शकतात प्रोग्रामिंग भाषा आणि साध्या भाषेतील डेटा.
निष्कर्ष
PaLM 4-अब्ज पॅरामीटर मॉडेलला प्रभावीपणे प्रशिक्षण देऊन दोन TPU v540 पॉड्सवर हजारो प्रवेगक प्रोसेसरपर्यंत मापन करण्याची पाथवे सिस्टमची क्षमता दाखवते, एका चांगल्या-अभ्यासित, सु-स्थापित रेसिपीसह एक घन डीकोडर-केवळ ट्रान्सफॉर्मर मॉडेल.
हे मॉडेल स्केलच्या सीमांना पुढे ढकलून नैसर्गिक भाषा प्रक्रिया, तर्क आणि कोडिंग आव्हानांच्या श्रेणीमध्ये काही-शॉट कामगिरी साध्य करते.
प्रत्युत्तर द्या