شرح عملية التدريب الكاملة لـ ChatGPT

جدول المحتويات[يخفي][يعرض]

ما قبل التدريب التوليدي+-
- قضية المحاذاة
الضبط الدقيق تحت الإشراف+-
- حدود الإشراف: التحول التوزيعي
بناءً على التفضيلات ، مكافأة التعلم
ماذا يحمل المستقبل؟

ChatGPT هو نموذج لغة ذكاء اصطناعي رائع. كلنا نستخدمه لمساعدتنا في مختلف المهام.

هل تساءلت يومًا كيف تم تدريبه على إنتاج ردود تبدو شبيهة بالبشر؟ في هذه المقالة ، سوف ندرس تدريب ChatGPT.

سنشرح كيف تطورت لتصبح واحدة من أبرزها نماذج اللغة. بينما نستكشف عالم ChatGPT المثير للاهتمام ، تعال في رحلة اكتشاف.

نظرة عامة على التدريب

ChatGPT هو نموذج معالجة لغة طبيعية.

باستخدام ChatGPT ، يمكننا الانخراط في حوارات تفاعلية ومناقشات شبيهة بالبشر. إنها تستخدم نهجًا مشابهًا لنهج إرشاد GPT، وهو نموذج لغوي متطور. تم تطويره قبل وقت قصير من ChatGPT.

إنها تستخدم طريقة أكثر جاذبية. هذا يتيح تفاعلات المستخدم الطبيعية. لذلك ، فهي أداة مثالية لمجموعة متنوعة من التطبيقات مثل روبوتات الدردشة والمساعدين الافتراضيين.

إجراء تدريب ChatGPT هو عملية متعددة المراحل. التدريب المسبق التوليدي هو الخطوة الأولى في تدريب ChatGPT.

في هذه المرحلة ، يتم تدريب النموذج باستخدام مجموعة كبيرة من البيانات النصية. بعد ذلك ، يكتشف النموذج الارتباطات والأنماط الإحصائية الموجودة في اللغة الطبيعية. لذلك ، يمكننا الحصول على إجابة دقيقة ومتماسكة نحويًا.

ثم نتبع خطوة ضبط دقيق خاضع للإشراف. في هذا الجزء ، يتم تدريب النموذج على مهمة معينة. على سبيل المثال ، يمكنه إجراء ترجمة اللغة أو الإجابة على الأسئلة.

أخيرًا ، يستخدم ChatGPT التعلم بالمكافأة من ردود الفعل البشرية.

الآن ، دعنا نفحص هذه الخطوات.

ما قبل التدريب التوليدي

المستوى الأولي من التدريب هو التدريب الأولي التوليدي. إنها طريقة شائعة لتدريب النماذج اللغوية. لإنشاء تسلسلات الرمز المميز ، تطبق الطريقة "نموذج توقع الخطوة التالية".

ماذا تعني؟

كل رمز هو متغير فريد. هم يمثلون كلمة أو جزء من كلمة. يحاول النموذج تحديد الكلمة التي من المرجح أن تأتي بعد ذلك بالنظر إلى الكلمات التي تسبقها. يستخدم توزيع الاحتمالات عبر جميع المصطلحات في تسلسلها.

الغرض من نماذج اللغة هو بناء تسلسلات رمزية. يجب أن تمثل هذه التسلسلات أنماط وهياكل اللغة البشرية. هذا ممكن من خلال نماذج التدريب على كميات ضخمة من البيانات النصية.

بعد ذلك ، تُستخدم هذه البيانات لفهم كيفية توزيع الكلمات في اللغة.

أثناء التدريب ، يغير النموذج معلمات توزيع الاحتمالات.

ويحاول تقليل الاختلاف بين التوزيع المتوقع والفعلي للكلمات في النص. هذا ممكن باستخدام دالة الخسارة. تحسب دالة الخسارة الفرق بين التوزيعات المتوقعة والفعلية.

معالجة اللغة الطبيعية و رؤية الكمبيوتر هي أحد المجالات التي نستخدم فيها التدريب المسبق التوليدي.

أوبناي 2

قضية المحاذاة

مشكلة المحاذاة هي إحدى الصعوبات في التدريب المسبق التوليدي. يشير هذا إلى صعوبة مطابقة توزيع احتمالية النموذج لتوزيع البيانات الفعلية.
بعبارة أخرى ، يجب أن تكون الإجابات التي يولدها النموذج أكثر شبهاً بالإنسان.

قد يقدم النموذج أحيانًا استجابات غير متوقعة أو غير مناسبة. وقد يرجع ذلك إلى مجموعة متنوعة من الأسباب ، مثل تحيز بيانات التدريب أو افتقار النموذج إلى الوعي بالسياق. يجب معالجة مشكلة المحاذاة لتحسين جودة النماذج اللغوية.

للتغلب على هذه المشكلة ، تستخدم نماذج اللغة مثل ChatGPT تقنيات ضبط دقيق.

الضبط الدقيق تحت الإشراف

يتم الإشراف على الجزء الثاني من تدريب ChatGPT. ينخرط المطورون البشريون في حوارات في هذه المرحلة ، حيث يتصرفون كمستخدم بشري وروبوت المحادثة.

يتم تسجيل هذه المحادثات وتجميعها في مجموعة بيانات. يتضمن كل نموذج تدريب تاريخ محادثة مميز يتوافق مع الإجابة التالية للمطور البشري الذي يعمل كـ "chatbot".

الغرض من الضبط الدقيق الخاضع للإشراف هو تعظيم الاحتمالية المخصصة لتسلسل الرموز في الإجابة المرتبطة بالنموذج. تُعرف هذه الطريقة باسم "التعلم بالتقليد" أو "استنساخ السلوك".

بهذه الطريقة يمكن للنموذج أن يتعلم تقديم استجابات أكثر تناسقًا وتبدو طبيعية. إنه تكرار للردود التي قدمها المقاولون البشريون.

الضبط الدقيق الخاضع للإشراف هو المكان الذي يمكن فيه تعديل نموذج اللغة لمهمة معينة.

دعنا نعطي مثالا. لنفترض أننا نريد تعليم روبوت محادثة تقديم توصيات بشأن الأفلام. سنقوم بتدريب نموذج اللغة على التنبؤ بتصنيفات الأفلام بناءً على أوصاف الفيلم. وسنستخدم مجموعة بيانات من أوصاف الأفلام وتقييماتها.

ستحدد الخوارزمية في النهاية جوانب الفيلم التي تتوافق مع التصنيفات العالية أو الضعيفة.

بعد أن يتم تدريبه ، يمكننا استخدام نموذجنا لاقتراح أفلام للمستخدمين البشريين. قد يصف المستخدمون فيلمًا يستمتعون به ، وسيستخدم روبوت المحادثة نموذج اللغة المكرر للتوصية بمزيد من الأفلام التي يمكن مقارنتها به.

حدود الإشراف: التحول التوزيعي

الضبط الدقيق تحت الإشراف هو تعليم نموذج لغوي لأداء هدف محدد. هذا ممكن عن طريق تغذية النموذج أ بيانات ثم تدريبه على عمل تنبؤات. ومع ذلك ، فإن هذا النظام له حدود تُعرف باسم "قيود الإشراف".

أحد هذه القيود هو "التحول التوزيعي". يشير إلى احتمال أن بيانات التدريب قد لا تعكس بدقة توزيع العالم الحقيقي للمدخلات التي قد يواجهها النموذج.

دعنا نراجع المثال السابق. في مثال اقتراح الفيلم ، قد لا تعكس مجموعة البيانات المستخدمة لتدريب النموذج بدقة تنوع الأفلام وتفضيلات المستخدم التي قد يواجهها روبوت المحادثة. قد لا يعمل برنامج الدردشة الآلي بالشكل الذي نريده.

نتيجة لذلك ، فإنه يلبي المدخلات التي تختلف عن تلك التي لوحظت أثناء التدريب.

بالنسبة للتعلم الخاضع للإشراف ، عندما يتم تدريب النموذج فقط على مجموعة معينة من الحالات ، تظهر هذه المشكلة.

بالإضافة إلى ذلك ، قد يكون أداء النموذج أفضل في مواجهة التغيير التوزيعي إذا تم استخدام التعلم المعزز لمساعدته على التكيف مع السياقات الجديدة والتعلم من أخطائه.

بناءً على التفضيلات ، مكافأة التعلم

التعلم بالمكافأة هو المرحلة التدريبية الثالثة في تطوير روبوت المحادثة. في التعلم بالمكافأة ، يتم تدريس النموذج لتعظيم إشارة المكافأة.

إنها درجة تشير إلى مدى فعالية النموذج في إنجاز المهمة. تعتمد إشارة المكافأة على المدخلات من الأشخاص الذين قاموا بتقييم أو تقييم ردود النموذج.

يهدف التعلم المكافئ إلى تطوير روبوت محادثة ينتج ردودًا عالية الجودة يفضلها المستخدمون البشريون. للقيام بذلك ، تسمى تقنية التعلم الآلي التعلم المعزز - والذي يتضمن التعلم من التغذية الراجعة في شكل مكافآت - يستخدم لتدريب النموذج.

يجيب برنامج chatbot على استفسارات المستخدم ، على سبيل المثال ، اعتمادًا على فهمه الحالي للمهمة ، التي يتم توفيرها له أثناء التعلم بالمكافأة. ثم يتم إعطاء إشارة مكافأة بناءً على مدى فعالية أداء chatbot بمجرد تقييم الردود من قبل قضاة بشريين.

يستخدم روبوت المحادثة إشارة المكافأة هذه لتعديل إعداداته. كما أنه يعزز أداء المهام.

بعض القيود على التعلم بالمكافأة

عيب تعلم المكافأة هو أن ردود الفعل على ردود الشات بوت قد لا تأتي لبعض الوقت لأن إشارة المكافأة قد تكون متفرقة ومتأخرة. نتيجة لذلك ، قد يكون من الصعب تدريب روبوت المحادثة بنجاح لأنه قد لا يتلقى تعليقات على ردود محددة حتى وقت لاحق.

قضية أخرى هي أن القضاة البشر قد يكون لديهم آراء أو تفسيرات متنوعة لما يجعل الاستجابة ناجحة ، مما قد يؤدي إلى التحيز في إشارة المكافأة. لتقليل ذلك ، كثيرًا ما يستخدمه العديد من القضاة لتقديم إشارة مكافأة يمكن الاعتماد عليها.

ماذا يحمل المستقبل؟

هناك العديد من الخطوات المستقبلية المحتملة لتحسين أداء ChatGPT.

لزيادة استيعاب النموذج ، يتمثل أحد المسارات المستقبلية المحتملة في تضمين المزيد من مجموعات البيانات التدريبية ومصادر البيانات. من الممكن أيضًا تعزيز قدرة النموذج على استيعاب المدخلات غير النصية وأخذها في الاعتبار.

على سبيل المثال ، يمكن لنماذج اللغة فهم العناصر المرئية أو الأصوات.

من خلال دمج تقنيات تدريب محددة ، يمكن أيضًا تحسين ChatGPT لمهام معينة. على سبيل المثال ، يمكن أن تؤدي تحليل المشاعر أو إنتاج لغة طبيعية. في الختام ، تُظهر نماذج ChatGPT واللغات ذات الصلة وعودًا كبيرة للتقدم.