ظلت Google باستمرار في طليعة أبحاث الذكاء الاصطناعي ، مستفيدة من مواردها الهائلة وتوظيف عدد كبير من المهندسين المتميزين. ومع ذلك ، فيما يتعلق بنماذج اللغة ، كانت جهود Google متأخرة في اللعبة.
مع استفادة شركة Microsoft العملاقة للتكنولوجيا بالفعل من شراكة مثمرة مع OpenAI ، لم يكن أمام Google خيار سوى اللحاق بالركب.
في مؤتمر Google I / O لهذا العام ، أعلنت الشركة عن إجابتها لسباق التسلح التوليدي للذكاء الاصطناعي: PaLM 2. هل سيقاس هذا النموذج الجديد في الأداء جنبًا إلى جنب مع GPT-4 الخاص بـ OpenAI؟
ما هو PaLM 2؟
يصف جوجل بالم 2 كنموذج لغوي حديث يعمل على تحسين نموذج PaLM الحالي الذي تم الإعلان عنه لأول مرة في عام 2022. على غرار نماذج اللغات الأخرى ، فإن PaLM 2 قادر على أداء مهام إنشاء نصوص متنوعة مثل PaLM قادر على مجموعة واسعة من المهام ، بما في ذلك الإجابة على الأسئلة وترجمة النص ، توليد كود، وأكثر من ذلك بكثير.
أظهرت الاختبارات أن PaLM 2 يُظهر بالفعل تحسينات كبيرة ، متفوقًا على نموذج PaLM أثناء استخدام عدد أقل بكثير من المعلمات.
PaLM 2 هي عائلة من العارضين
مثل نماذج اللغات الأخرى ، فإن مشروع PaLM 2 هو في الواقع مجموعة من النماذج التي تتراوح في الحجم. ستوفر Google طراز PaLM 2 بأربعة أحجام: Gecko و Otter و Bison و Unicorn.
تنوع الأحجام يجعل من السهل نشر PaLM 2 في حالات الاستخدام المختلفة. على سبيل المثال ، يعتبر طراز Gecko خفيف الوزن بدرجة كافية بحيث يمكن أن يتناسب الطراز بأكمله مع جهاز محمول وحتى يعمل دون اتصال بالإنترنت.
مجموعة بيانات تدريب PaLM 2
أحد أهم جوانب النموذج اللغوي الناجح هو مجموعة بيانات التدريب. يجب أن تكون مجموعة بيانات التدريب متنوعة بما يكفي للسماح للنموذج بالحصول على فهم عميق للموضوع الذي تم تصميمه من أجله.
بالنسبة لنماذج اللغات الكبيرة (LLMs) ، لا يوجد عادةً موضوع محدد يجب أن يتدرب عليه النموذج. تم تصميم LLMs بدلاً من ذلك لتكون نماذج للأغراض العامة يجب أن تكون مناسبة لأداء عدد كبير من المهام. تستخدم هذه النماذج مجموعات بيانات نصية كبيرة تلتقط جزءًا كبيرًا من الويب بالإضافة إلى المواد المرجعية المنشورة والأدبيات وحتى التعليمات البرمجية المصدر.
يتمثل الاختلاف الرئيسي بين مجموعة بيانات التدريب الخاصة بـ PaLM 2 والنماذج الأخرى في تضمين نسبة مئوية أعلى من البيانات غير الإنجليزية. وفقا لمن تقرير فنييؤدي توسيع مجموعة البيانات لتشمل نصوصًا غير إنجليزية إلى تعريض النموذج لمجموعة متنوعة من اللغات والثقافات.
تم تدريب نموذج PaLM 2 أيضًا على بيانات متعددة اللغات متوازية لمساعدة النموذج على اكتساب القدرة على الترجمة من لغة إلى أخرى. تتضمن البيانات أزواج من النص حيث يكون أحدهما باللغة الإنجليزية والآخر نص مكافئ بلغة أخرى.
يوضح الجدول أعلاه التوزيع اللغوي لوثائق الويب متعددة اللغات المستخدمة في تدريب PaLM 2.
الميزات الرئيسية لـ PaLM 2
فيما يلي بعض المجالات الرئيسية التي يتفوق فيها PaLM 2 مقارنة بنماذج اللغات الأخرى.
منطق
تتضمن مجموعة بيانات PaLM 2 مصادر مثل الأوراق العلمية ومحتوى الويب مع التعبيرات الرياضية. هذا يعطي النموذج قدرات محسنة في الرياضيات ، والمنطق المنطقي ، والمنطق.
اختبر الباحثون قدرات التفكير الرياضي للنموذج في أسئلة الرياضيات في المدارس الابتدائية والثانوية حيث يُظهر نتائج مماثلة لقدرات GPT-4 في الرياضيات.
البرمجة
تمنح بيانات التدريب الخاصة بـ PaLM 2 أيضًا القدرة على إنشاء رمز في مجموعة متنوعة من لغات البرمجة. أنشأ فريق PALM 2 نموذجًا خاصًا بالترميز PaLM 2 يسمى PaLM 2-S * والذي تم تدريبه على مجموعة بيانات متعددة اللغات ثقيلة الترميز.
ليس النموذج قادرًا على إنشاء الكود فحسب ، بل إنه قادر أيضًا على التعامل مع المهام التي تتضمن لغات متعددة. على سبيل المثال ، يمكنك أن تطلب من PaLM 2 إنشاء وظيفة فرز بايثون تضيف تعليقات سطراً سطراً باللغة الإسبانية.
تعدد اللغات
منذ أن تم تدريب النموذج على مجموعة بيانات تتضمن أكثر من 100 لغة ، يُظهر PaLM 2 الكفاءة في فهم النص وتوليده وترجمته عبر لغات متعددة.
لاختبار تعدد اللغات ، اختبر الباحثون النموذج في اختبارات إجادة لغوية مختلفة بلغات مختلفة. تظهر النتائج أن PaLM 2 لا يتفوق فقط على PaLM ولكنه حقق أيضًا درجة النجاح لكل لغة تم تقييمها.
يُظهر PaLM 2 أيضًا قدراته متعددة اللغات من خلال قدرته على فهم المصطلحات بلغات مختلفة ، وشرح النكات ، وإصلاح الأخطاء المطبعية ، ويمكنه أيضًا تعلم كيفية تحويل النص الرسمي إلى محادثة عامية.
تقوم PaLM 2 بتشغيل منتجات Google
تستفيد Google بالفعل من تطورات PaLM 2 من خلال دمج النموذج مع المنتجات الأخرى.
الشاعر
تعمل الآن قدرة النموذج على التعامل مع المهام متعددة اللغات على دعم قدرات Google تجربة بارد لأنها تتوسع إلى أكثر من 180 دولة ومنطقة.
يستخدم Bard الآن أيضًا إمكانات الترميز الخاصة بـ PaLM 2 للمساعدة في مهام البرمجة وتطوير البرامج مثل إنشاء الكود وتصحيح أخطاء الكود.
Duet AI لـ Google Workspace
تخطط Google أيضًا لإضافة ميزات AI إنشاءية إلى مجموعة تطبيقات Google Workspace الخاصة بها. سيتضمن Gmail و Docs قريبًا ميزة تسمى دويتو AI سيساعد ذلك المستخدم في صياغة ردوده وكتابتها باستخدام المطالبات.
سيسمح Duet AI أيضًا للمستخدمين بإنشاء خطط مخصصة في جداول بيانات Google للمهام والمشاريع بناءً على المطالبات المقدمة من المستخدم.
وفي الختام
تأمل Google بالتأكيد في سد الفجوة في سوق أدوات لغة الذكاء الاصطناعي من خلال نموذج اللغة PaLM 2 الخاص بها. في حين أن واجهة برمجة التطبيقات الخاصة بالنموذج ليست متاحة للجمهور بعد ، تظهر نتائج أبحاثهم أن النموذج تنافسي بما يكفي لمطابقة أداء GPT-4.
مع قاعدة مستخدمي Google الحالية ، لديهم بالتأكيد ميزة التكيف الهائل إذا تم دمج الذكاء الاصطناعي الخاص بهم في خدماتهم مثل محرك البحث أو مجموعة أدوات الإنتاجية الخاصة بهم.
اترك تعليق