لنتخيل أنك تحاول تعليم إنسان آلي كيفية المشي. على عكس تعليم الكمبيوتر كيفية التنبؤ بأسعار الأسهم أو تصنيف الصور ، ليس لدينا مجموعة بيانات كبيرة يمكننا استخدامها لتدريب الروبوت الخاص بنا.
على الرغم من أنه قد يكون طبيعيًا بالنسبة لك ، إلا أن المشي هو في الواقع عمل معقد للغاية. عادة ما ينطوي المشي في خطوة على عمل عشرات العضلات المختلفة معًا. تعتمد الجهود والتقنيات المستخدمة في المشي من مكان إلى آخر أيضًا على مجموعة متنوعة من العوامل ، بما في ذلك ما إذا كنت تحمل شيئًا ما أو ما إذا كان هناك منحدر أو أشكال أخرى من العوائق.
في مثل هذه السيناريوهات ، يمكننا استخدام طريقة تعرف باسم التعلم المعزز أو RL. باستخدام RL ، يمكنك تحديد هدف محدد تريد أن يحله نموذجك وتترك النموذج تدريجيًا يتعلم من تلقاء نفسه كيفية تحقيقه.
في هذه المقالة ، سوف نستكشف أساسيات التعلم المعزز وكيف يمكننا تطبيق إطار عمل RL على مجموعة متنوعة من المشكلات المختلفة في العالم الحقيقي.
ما هو التعلم المعزز؟
يشير التعلم المعزز إلى مجموعة فرعية معينة من آلة التعلم التي تركز على إيجاد الحلول من خلال مكافأة السلوكيات المرغوبة ومعاقبة السلوكيات غير المرغوب فيها.
على عكس التعلم الخاضع للإشراف ، لا تحتوي طريقة التعلم المعزز عادةً على مجموعة بيانات تدريبية توفر المخرجات الصحيحة لمدخل معين. في حالة عدم وجود بيانات التدريب ، يجب أن تجد الخوارزمية الحل من خلال التجربة والخطأ. الخوارزمية ، والتي نشير إليها عادةً باسم وكيل، يجب أن تجد الحل بنفسه من خلال التفاعل مع بيئة.
يقرر الباحثون ما هي النتائج المحددة مكافأة وما تستطيع الخوارزمية فعله. كل عمل ستتلقى الخوارزمية شكلاً من أشكال التعليقات التي تسجل مدى جودة أداء الخوارزمية. أثناء عملية التدريب ، ستجد الخوارزمية في النهاية الحل الأمثل لحل مشكلة معينة.
مثال بسيط: شبكة 4 × 4
دعنا نلقي نظرة على مثال بسيط لمشكلة يمكننا حلها بالتعلم المعزز.
افترض أن لدينا شبكة 4 × 4 كبيئتنا. يتم وضع وكيلنا بشكل عشوائي في أحد المربعات مع بعض العوائق. يجب أن تحتوي الشبكة على ثلاث عوائق "حفرة" يجب تجنبها ومكافأة واحدة "ماسية" يجب على الوكيل العثور عليها. يُعرف الوصف الكامل لبيئتنا بالبيئة حالة.
في نموذج RL الخاص بنا ، يمكن لوكيلنا الانتقال إلى أي مربع مجاور طالما لا توجد عوائق تمنعه. تُعرف مجموعة جميع الإجراءات الصالحة في بيئة معينة باسم مساحة العمل. هدف وكيلنا هو العثور على أقصر طريق للمكافأة.
سيستخدم وكيلنا طريقة التعلم التعزيزي للعثور على المسار إلى الماس الذي يتطلب أقل قدر من الخطوات. كل خطوة صحيحة ستمنح الروبوت مكافأة وكل خطوة خاطئة ستطرح مكافأة الروبوت. يحسب النموذج إجمالي المكافأة بمجرد وصول الوكيل إلى الماس.
الآن بعد أن حددنا العامل والبيئة ، يجب علينا أيضًا تحديد القواعد التي يجب استخدامها لتحديد الإجراء التالي الذي سيتخذه الوكيل نظرًا لحالته الحالية والبيئة.
السياسات والمكافآت
في نموذج التعلم المعزز ، أ سياسة يشير إلى الإستراتيجية التي يستخدمها الوكيل لتحقيق أهدافه. سياسة الوكيل هي ما يقرر ما يجب أن يفعله الوكيل بعد ذلك في ضوء الحالة الحالية للوكيل وبيئته.
يجب على الوكيل تقييم جميع السياسات الممكنة لمعرفة السياسة المثلى.
في مثالنا البسيط ، سيؤدي الهبوط على مساحة فارغة إلى إرجاع القيمة -1. عندما يهبط الوكيل على مساحة بالمكافأة الماسية ، سيحصل على قيمة 10. باستخدام هذه القيم ، يمكننا مقارنة السياسات المختلفة باستخدام وظيفة المنفعة U.
دعنا الآن نقارن فائدة السياستين الموضحتين أعلاه:
ش (أ) = -1-1 -1 + 10 = 7
ش (ب) = -1-1-1-1-1 + 10 = 5
تظهر النتائج أن السياسة (أ) هي أفضل طريق للعثور على المكافأة. وبالتالي ، سيستخدم الوكيل المسار "أ" عبر السياسة "ب".
الاستكشاف مقابل الاستغلال
تعتبر مشكلة الاستكشاف مقابل الاستغلال في التعلم المعزز معضلة يجب على الوكيل مواجهتها أثناء عملية اتخاذ القرار.
هل يجب على الوكلاء التركيز على استكشاف مسارات أو خيارات جديدة أم ينبغي عليهم الاستمرار في استغلال الخيارات التي يعرفونها بالفعل؟
إذا اختار الوكيل الاستكشاف ، فهناك احتمال أن يجد الوكيل خيارًا أفضل ، ولكنه قد يخاطر أيضًا بإهدار الوقت والموارد. من ناحية أخرى ، إذا اختار الوكيل استغلال الحل الذي يعرفه بالفعل ، فقد يفقد خيارًا أفضل.
التطبيقات العملية
فيما يلي بعض الطرق باحثو الذكاء الاصطناعي طبقت نماذج التعلم المعزز لحل مشاكل العالم الحقيقي:
التعلم المعزز في السيارات ذاتية القيادة
تم تطبيق التعلم المعزز على السيارات ذاتية القيادة من أجل تحسين قدرتها على القيادة بأمان وكفاءة. تتيح هذه التقنية للسيارات المستقلة التعلم من أخطائها وتعديل سلوكها باستمرار من أجل تحسين أدائها.
على سبيل المثال ، شركة AI ومقرها لندن وايف نجح في تطبيق نموذج التعلم المعزز العميق للقيادة الذاتية. في تجربتهم ، استخدموا وظيفة المكافأة التي تزيد من مقدار الوقت الذي تعمل فيه السيارة دون أن يقدم السائق على متنها مدخلات.
تساعد نماذج RL السيارات أيضًا على اتخاذ قرارات بناءً على البيئة ، مثل تجنب العقبات أو الاندماج في حركة المرور. يجب أن تجد هذه النماذج طريقة لتحويل البيئة المعقدة المحيطة بالسيارة إلى مساحة حالة تمثيلية يمكن للنموذج فهمها.
التعلم المعزز في الروبوتات
يستخدم الباحثون أيضًا التعلم المعزز لتطوير الروبوتات التي يمكنها تعلم المهام المعقدة. من خلال نماذج RL هذه ، تستطيع الروبوتات مراقبة بيئتها واتخاذ القرارات بناءً على ملاحظاتها.
على سبيل المثال ، تم إجراء بحث حول استخدام نماذج التعلم المعزز للسماح للروبوتات ذات القدمين بتعلم كيفية ذلك سير بمفردهم.
يعتبر الباحثون أن RL طريقة أساسية في مجال الروبوتات. يمنح التعلم المعزز العوامل الآلية إطارًا لتعلم الإجراءات المعقدة التي قد يصعب هندستها بطريقة أخرى.
تعزيز التعلم في الألعاب
تم استخدام نماذج RL أيضًا لتعلم كيفية لعب ألعاب الفيديو. يمكن إعداد الوكلاء للتعلم من أخطائهم وتحسين أدائهم باستمرار في اللعبة.
طور الباحثون بالفعل وكلاء يمكنهم لعب ألعاب مثل الشطرنج والجو والبوكر. في سنة 2013، العقل العميق استخدم التعلم العميق المعزز للسماح للنموذج بتعلم كيفية لعب ألعاب Atari من البداية.
تمتلك العديد من ألعاب الطاولة وألعاب الفيديو مساحة عمل محدودة وهدفًا ملموسًا محددًا جيدًا. تعمل هذه السمات لصالح نموذج RL. يمكن لأساليب RL التكرار بسرعة عبر ملايين الألعاب المحاكاة لتعلم الاستراتيجيات المثلى لتحقيق النصر.
وفي الختام
سواء كان الأمر يتعلق بتعلم المشي أو تعلم كيفية لعب ألعاب الفيديو ، فقد ثبت أن نماذج RL هي أطر عمل ذكاء اصطناعي مفيدة لحل المشكلات التي تتطلب اتخاذ قرارات معقدة.
مع استمرار تطور التكنولوجيا ، سيستمر كل من الباحثين والمطورين في البحث عن تطبيقات جديدة تستفيد من قدرة النموذج على التدريس الذاتي.
ما هي التطبيقات العملية التي تعتقد أن التعلم المعزز يمكن أن يساعد فيها؟
اترك تعليق