مقدمة إلى نموذج لغة المسارات (PaLM)

جدول المحتويات[يخفي][يعرض]

ما هي خوارزمية PaLM من Google؟
كيف طورت Google خوارزمية PaLM؟
المعلمات المستخدمة لتدريب PaLM
قدرات اختراق PaLM+-
وفي الختام

أظهرت الشبكات العصبية الكبيرة التي تم تدريبها للتعرف على اللغة وتوليدها نتائج رائعة في مجموعة متنوعة من المهام في السنوات الأخيرة. أثبت GPT-3 أنه يمكن استخدام نماذج اللغة الكبيرة (LLMs) للتعلم بلقطات قليلة والحصول على نتائج ممتازة دون الحاجة إلى بيانات مكثفة خاصة بالمهمة أو تغيير معلمات النموذج.

قدمت Google ، عملاق التكنولوجيا في وادي السيليكون ، PaLM ، أو نموذج لغة Pathways ، إلى صناعة التكنولوجيا في جميع أنحاء العالم كنموذج للغة الذكاء الاصطناعي من الجيل التالي. أدرجت Google ملف الذكاء الاصطناعي الهندسة المعمارية في PaLM بأهداف إستراتيجية لتحسين جودة نموذج لغة الذكاء الاصطناعي.

في هذا المنشور ، سوف نفحص خوارزمية Palm بالتفصيل ، بما في ذلك المعلمات المستخدمة لتدريبها ، والمشكلة التي تحلها ، وأكثر من ذلك بكثير.

ما هي تفاصيل خوارزمية PaLM من Google?

نموذج لغة المسارات هو ما كف، نخلة تمثل. هذه خوارزمية جديدة طورتها Google لتقوية بنية Pathways AI. الهدف الرئيسي للهيكل هو القيام بمليون نشاط مميز في وقت واحد.

يتضمن ذلك كل شيء من فك تشفير البيانات المعقدة إلى التفكير الاستنتاجي. تمتلك PaLM القدرة على تجاوز أحدث تقنيات الذكاء الاصطناعي وكذلك البشر في مهام اللغة والاستدلال.

يتضمن ذلك التعلم قليل اللقطات ، الذي يحاكي كيفية تعلم البشر لأشياء جديدة ويجمع بين أجزاء متنوعة من المعرفة لمواجهة تحديات جديدة لم يسبق رؤيتها من قبل ، مع الاستفادة من آلة يمكنها استخدام كل معارفها لحل التحديات الجديدة ؛ أحد الأمثلة على هذه المهارة في PaLM هو قدرتها على شرح نكتة لم تسمع بها من قبل.

كف، نخلة

أظهر PaLM العديد من المهارات الخارقة في مجموعة متنوعة من المهام الصعبة ، بما في ذلك فهم اللغة والإبداع ، والأنشطة المتعلقة بالشفرة الحسابية متعددة الخطوات ، والتفكير المنطقي ، والترجمة ، وغير ذلك الكثير.

لقد أثبت قدرته على حل المشكلات المعقدة باستخدام مجموعات البرمجة اللغوية العصبية المتعددة اللغات. يمكن استخدام PaLM من قبل سوق التكنولوجيا في جميع أنحاء العالم للتمييز بين السبب والنتيجة ، والتركيبات المفاهيمية ، والألعاب المتميزة ، والعديد من الأشياء الأخرى.

يمكنه أيضًا إنشاء تفسيرات متعمقة للعديد من السياقات باستخدام الاستدلال المنطقي متعدد الخطوات واللغة العميقة والمعرفة العالمية والتقنيات الأخرى.

كيف طورت Google خوارزمية PaLM؟

من أجل أداء Google المذهل في PaLM ، تمت جدولة المسارات لتصل إلى 540 مليار معلمة. يتم التعرف عليه باعتباره النموذج الوحيد الذي يمكنه التعميم بكفاءة وفعالية عبر العديد من المجالات. برنامج Pathways في Google مكرس لتطوير الحوسبة الموزعة للمسرعات.

PaLM هو نموذج محول لوحدة فك التشفير فقط تم تدريبه باستخدام نظام Pathways. نجحت PaLM في تحقيق أداء متطور للغاية عبر العديد من أعباء العمل ، وفقًا لـ Google. استخدمت PaLM نظام Pathways لتوسيع التدريب إلى أكبر تكوين للنظام قائم على TPU ، والمعروف باسم شرائح 6144 لأول مرة.

تتكون مجموعة بيانات التدريب الخاصة بنموذج لغة الذكاء الاصطناعي من مزيج من مجموعات البيانات الإنجليزية وغيرها من مجموعات البيانات متعددة اللغات. مع المفردات "غير المفقودة" ، فهي تحتوي على محتوى ويب عالي الجودة ومناقشات وكتب ورمز GitHub و Wikipedia وغير ذلك الكثير. يتم التعرف على المفردات غير المفقودة للاحتفاظ بالمسافات البيضاء وتقسيم أحرف Unicode غير الموجودة في المفردات إلى وحدات بايت.

تم تطوير PaLM بواسطة Google و Pathways باستخدام بنية نموذج المحولات القياسية وتكوين وحدة فك الترميز التي تضمنت تنشيط SwiGLU والطبقات المتوازية وتضمينات RoPE وتضمينات المدخلات والمخرجات المشتركة والاهتمام متعدد الاستعلامات وعدم وجود تحيزات أو مفردات. من ناحية أخرى ، تستعد PaLM لتوفير أساس متين لنموذج لغة الذكاء الاصطناعي الخاص بـ Google و Pathways.

المعلمات المستخدمة لتدريب PaLM

في العام الماضي ، أطلقت Google برنامج Pathways ، وهو نموذج واحد يمكن تدريبه على القيام بآلاف ، إن لم يكن الملايين ، من الأشياء - أطلق عليه اسم "بنية الذكاء الاصطناعي من الجيل التالي" نظرًا لأنه يمكنه التغلب على قيود النماذج الحالية المتمثلة في التدريب على فعل شيء واحد فقط . بدلاً من توسيع قدرات النماذج الحالية ، غالبًا ما تُبنى النماذج الجديدة من الأسفل إلى الأعلى لإنجاز مهمة واحدة.

نتيجة لذلك ، قاموا بإنشاء عشرات الآلاف من النماذج لعشرات الآلاف من الأنشطة المختلفة. هذه مهمة تستغرق وقتا طويلا وتستهلك موارد كثيرة.

أثبتت Google عبر Pathways أن نموذجًا واحدًا يمكنه التعامل مع مجموعة متنوعة من الأنشطة والاستفادة من المواهب الحالية والجمع بينها لتعلم مهام جديدة بشكل أسرع وأكثر كفاءة.

قد يتم تمكين النماذج متعددة الوسائط التي تتضمن الرؤية والفهم اللغوي والمعالجة السمعية في نفس الوقت من خلال المسارات. يسمح نموذج لغة Pathways (PaLM) بتدريب نموذج واحد عبر العديد من وحدات TPU v4 Pods بفضل نموذج المعلمة الذي يبلغ 540 مليارًا.

البنية التحتية للتدريب

يتفوق PaLM ، وهو نموذج محول كثيف لوحدة فك التشفير فقط ، على أحدث أداء لطلقات قليلة عبر مجموعة واسعة من أحمال العمل. يتم تدريب PaLM على جهازي TPU v4 Pods المرتبطين عبر شبكة مركز بيانات (DCN).

يستفيد من كل من توازي النموذج والبيانات. استخدم الباحثون 3072 من معالجات TPU v4 في كل Pod لـ PaLM ، والتي كانت متصلة بـ 768 مضيفًا. وفقًا للباحثين ، يعد هذا أكبر تكوين TPU تم الكشف عنه حتى الآن ، مما يسمح لهم بتوسيع نطاق التدريب دون استخدام موازاة خطوط الأنابيب.

بطانة الأنابيب هي عملية جمع التعليمات من وحدة المعالجة المركزية عبر خط أنابيب بشكل عام. تنقسم طبقات النموذج إلى مراحل يمكن معالجتها بالتوازي عبر موازاة نموذج خط الأنابيب (أو موازاة خطوط الأنابيب).

يتم إرسال ذاكرة التنشيط إلى الخطوة التالية عندما تكمل إحدى المراحل التمرير الأمامي لمجموعة صغيرة. ثم يتم إرسال التدرجات إلى الخلف عندما تكمل المرحلة التالية انتشارها العكسي.

قدرات اختراق PaLM

يعرض PaLM قدرات رائدة في مجموعة من المهام الصعبة. إليك عدة أمثلة:

1. خلق اللغة وفهمها

تم اختبار PaLM في 29 مهمة مختلفة من البرمجة اللغوية العصبية باللغة الإنجليزية.

على أساس عدد قليل من اللقطات ، تفوقت PaLM 540B على النماذج الكبيرة السابقة مثل GLaM و GPT-3 و Megatron-Turing NLG و Gopher و Chinchilla و LaMDA في 28 مهمة من 29 مهمة ، بما في ذلك مهام الإجابة على الأسئلة ذات المجال المغلق المفتوح ، مهام cloze وإكمال الجملة ، مهام بأسلوب Winograd ، مهام فهم القراءة في السياق ، مهام التفكير المنطقي ، مهام SuperGLUE ، والاستدلال الطبيعي.

فهم توليد اللغة

في العديد من مهام مقاعد البدلاء الكبيرة ، يُظهر PaLM تفسيرًا ممتازًا للغة الطبيعية ومهارات التوليد. على سبيل المثال ، يمكن للنموذج التمييز بين السبب والنتيجة ، وفهم التركيبات المفاهيمية في مواقف معينة ، وحتى تخمين الفيلم من رمز تعبيري. على الرغم من أن 22٪ فقط من أعضاء هيئة التدريب ليست الإنجليزية ، فإن PaLM تؤدي أداءً جيدًا في معايير البرمجة اللغوية العصبية متعددة اللغات ، بما في ذلك الترجمة ، بالإضافة إلى مهام البرمجة اللغوية العصبية الإنجليزية.

2. التفكير

يمزج PaLM حجم النموذج مع سلسلة الأفكار المحفزة لإظهار مهارات اختراق في تحديات التفكير التي تتطلب حسابًا متعدد الخطوات أو التفكير المنطقي.

استفادت LLMs السابقة ، مثل Gopher ، أقل من حجم النموذج من حيث تحسين الأداء. كان PaLM 540B مع سلسلة من الأفكار التي تحفز على أداء جيد في ثلاث مجموعات بيانات حسابية واثنين من مجموعات بيانات التفكير المنطقي.

يتفوق PaLM على أفضل درجة سابقة وهي 55٪ ، والتي تم الحصول عليها من خلال ضبط نموذج GPT-3 175B بمجموعة تدريب مكونة من 7500 مشكلة ودمجها مع آلة حاسبة خارجية ومدقق لحل 58 بالمائة من المشكلات في GSM8K ، معيار لآلاف من الأسئلة الرياضية الصعبة على مستوى المدرسة الابتدائية باستخدام 8-shots.

هذه النتيجة الجديدة جديرة بالملاحظة بشكل خاص لأنها تقترب من متوسط 60٪ للعقبات التي يواجهها الأطفال الذين تتراوح أعمارهم بين 9 و 12 عامًا. يمكنه أيضًا الرد على النكات الأصلية غير المتوفرة على الإنترنت.

شرح مزحة

3. توليد الكود

كما ثبت أن LLM تعمل بشكل جيد في مهام الترميز ، بما في ذلك إنشاء رمز من وصف اللغة الطبيعية (نص إلى رمز) ، وترجمة التعليمات البرمجية بين اللغات ، وحل أخطاء الترجمة. على الرغم من وجود رمز 5 ٪ فقط في مجموعة بيانات ما قبل التدريب ، فإن PaLM 540B يؤدي أداءً جيدًا في كل من مهام الترميز واللغة الطبيعية في نموذج واحد.

رمز الجيل

أداءها قليل اللقطات مذهل ، حيث إنها تتطابق مع Codex 12B المُحسَّن بدقة بينما تتدرب مع كود Python أقل بـ 50 مرة. تؤيد هذه النتيجة النتائج السابقة بأن النماذج الأكبر يمكن أن تكون أكثر كفاءة في استخدام العينات من النماذج الأصغر لأنها يمكن أن تنقل التعلم بشكل أكثر فاعلية من عدة نماذج لغات البرمجة وبيانات لغة بسيطة.

مثال على إنشاء الكود.

وفي الختام

يُظهر PaLM قدرة نظام Pathways على التوسع إلى الآلاف من معالجات المسرعات عبر وحدتي TPU v4 Pods من خلال التدريب الفعال لنموذج 540 مليار معلمة باستخدام وصفة مدروسة جيدًا وراسخة لنموذج محول كثيف فقط لوحدة فك التشفير.

إنه يحقق أداءً مذهلاً في عدد قليل من اللقطات عبر مجموعة من تحديات معالجة اللغة الطبيعية والتفكير والتشفير من خلال دفع حدود مقياس النموذج.

مقدمة إلى نموذج لغة المسارات (PaLM)

ما هي تفاصيل خوارزمية PaLM من Google?

كيف طورت Google خوارزمية PaLM؟

المعلمات المستخدمة لتدريب PaLM