Reinforcement Learning: AI جو اپنی غلطیوں سے سیکھتا ہے

کی میز کے مندرجات[چھپائیں][دکھائیں]

کمک سیکھنے کیا ہے؟
ایک سادہ مثال: 4×4 گرڈ+-
- پالیسیاں اور انعامات
- ایکسپلوریشن بمقابلہ استحصال
عملی ایپلی کیشنز+-
نتیجہ

آئیے تصور کریں کہ آپ ایک روبوٹ کو چلنے کا طریقہ سکھانے کی کوشش کر رہے ہیں۔ کمپیوٹر کو اسٹاک کی قیمتوں کا اندازہ لگانے یا تصاویر کی درجہ بندی کرنے کا طریقہ سکھانے کے برعکس، ہمارے پاس واقعی اتنا بڑا ڈیٹا سیٹ نہیں ہے جسے ہم اپنے روبوٹ کو تربیت دینے کے لیے استعمال کر سکیں۔

اگرچہ یہ قدرتی طور پر آپ کو آ سکتا ہے، چلنا دراصل ایک بہت ہی پیچیدہ عمل ہے۔ ایک قدم چلنے میں عام طور پر درجنوں مختلف پٹھے مل کر کام کرتے ہیں۔ ایک جگہ سے دوسری جگہ چلنے کے لیے استعمال کی جانے والی کوشش اور تکنیک بھی مختلف عوامل پر منحصر ہے، بشمول یہ کہ آیا آپ کچھ لے کر جا رہے ہیں یا کوئی مائل ہے یا رکاوٹوں کی دوسری شکلیں ہیں۔

اس طرح کے منظرناموں میں، ہم ایک طریقہ استعمال کر سکتے ہیں جسے کمک سیکھنے یا RL کہا جاتا ہے۔ RL کے ساتھ، آپ ایک مخصوص مقصد کی وضاحت کر سکتے ہیں جسے آپ اپنے ماڈل کو حل کرنا چاہتے ہیں اور آہستہ آہستہ ماڈل کو خود ہی سیکھنے دیں کہ اسے کیسے پورا کرنا ہے۔

اس مضمون میں، ہم کمک سیکھنے کی بنیادی باتوں کو دریافت کریں گے اور یہ کہ ہم حقیقی دنیا میں مختلف مسائل کے لیے RL فریم ورک کا اطلاق کیسے کر سکتے ہیں۔

کمک سیکھنے کیا ہے؟

کمک سیکھنے سے مراد ایک خاص ذیلی سیٹ ہے۔ مشین لرننگ جو مطلوبہ طرز عمل کو بدلہ دے کر اور ناپسندیدہ طرز عمل کو سزا دے کر حل تلاش کرنے پر مرکوز ہے۔

کمک سیکھنے کے فریم ورک کا خاکہ

زیر نگرانی سیکھنے کے برعکس، کمک سیکھنے کے طریقہ کار میں عام طور پر تربیتی ڈیٹاسیٹ نہیں ہوتا ہے جو دیے گئے ان پٹ کے لیے صحیح آؤٹ پٹ فراہم کرتا ہے۔ تربیتی ڈیٹا کی عدم موجودگی میں، الگورتھم کو آزمائش اور غلطی کے ذریعے حل تلاش کرنا چاہیے۔ الگورتھم، جسے ہم عام طور پر ایک کے طور پر حوالہ دیتے ہیں۔ ایجنٹکے ساتھ بات چیت کرکے خود ہی حل تلاش کرنا چاہیے۔ ماحول.

محققین اس بات کا فیصلہ کرتے ہیں کہ کون سے خاص نتائج برآمد ہوتے ہیں۔ بدلہ اور الگورتھم کیا کرنے کے قابل ہے۔ ہر کوئی کارروائی الگورتھم لیتا ہے کو کچھ تاثرات موصول ہوں گے جو اسکور کرتا ہے کہ الگورتھم کتنا اچھا کام کر رہا ہے۔ تربیتی عمل کے دوران، الگورتھم بالآخر کسی خاص مسئلے کو حل کرنے کے لیے بہترین حل تلاش کر لے گا۔

ایک سادہ مثال: 4×4 گرڈ

آئیے اس مسئلے کی ایک سادہ مثال پر ایک نظر ڈالتے ہیں جسے ہم کمک سیکھنے سے حل کر سکتے ہیں۔

فرض کریں کہ ہمارے پاس اپنے ماحول کے طور پر 4×4 گرڈ ہے۔ ہمارے ایجنٹ کو چند رکاوٹوں کے ساتھ تصادفی طور پر چوکوں میں سے ایک میں رکھا گیا ہے۔ گرڈ میں تین "گڑھے" رکاوٹیں ہوں گی جن سے بچنا ضروری ہے اور ایک واحد "ہیرا" انعام جو ایجنٹ کو تلاش کرنا ہوگا۔ ہمارے ماحول کی مکمل تفصیل کو ماحولیات کے نام سے جانا جاتا ہے۔ تھے.

کمک سیکھنے کا انحصار ایسے ایجنٹ پر ہوتا ہے جو نقلی ماحول کے ساتھ تعامل کرتا ہے۔

ہمارے RL ماڈل میں، ہمارا ایجنٹ کسی بھی ملحقہ چوک میں جا سکتا ہے جب تک کہ انہیں روکنے میں کوئی رکاوٹ نہ ہو۔ ایک دیئے گئے ماحول میں تمام درست اعمال کا مجموعہ کے طور پر جانا جاتا ہے کارروائی کی جگہ. ہمارے ایجنٹ کا مقصد انعام کا مختصر ترین راستہ تلاش کرنا ہے۔

ایجنٹ کے پاس ایک ایکشن اسپیس یا دی گئی حالت میں درست کارروائیوں کا سیٹ ہے۔

ہمارا ایجنٹ ہیرے کا راستہ تلاش کرنے کے لیے کمک سیکھنے کا طریقہ استعمال کرے گا جس کے لیے کم سے کم قدم کی ضرورت ہوتی ہے۔ ہر صحیح قدم روبوٹ کو انعام دے گا اور ہر غلط قدم روبوٹ کے انعام کو گھٹائے گا۔ ایجنٹ کے ہیرے تک پہنچنے کے بعد ماڈل کل انعام کا حساب لگاتا ہے۔

اب جب کہ ہم نے ایجنٹ اور ماحول کی تعریف کر دی ہے، ہمیں ان اصولوں کی بھی وضاحت کرنی چاہیے جو ایجنٹ اپنی موجودہ حالت اور ماحول کے پیش نظر اگلی کارروائی کرے گا۔

پالیسیاں اور انعامات

کمک سیکھنے کے ماڈل میں، a پالیسی اس حکمت عملی سے مراد ہے جو ایجنٹ اپنے مقاصد کو پورا کرنے کے لیے استعمال کرتا ہے۔ ایجنٹ کی پالیسی وہی ہے جو ایجنٹ کی موجودہ حالت اور اس کے ماحول کو دیکھتے ہوئے فیصلہ کرتی ہے کہ ایجنٹ کو آگے کیا کرنا چاہیے۔

ایجنٹ کو یہ دیکھنے کے لیے تمام ممکنہ پالیسیوں کا جائزہ لینا چاہیے کہ کون سی پالیسی بہترین ہے۔

پالیسیوں کا جائزہ

ہماری سادہ مثال میں، خالی جگہ پر اترنے سے -1 کی قدر واپس آئے گی۔ جب ایجنٹ ہیرے کے انعام کے ساتھ کسی جگہ پر اترتا ہے، تو اسے 10 کی قیمت ملے گی۔ ان اقدار کا استعمال کرتے ہوئے، ہم مختلف پالیسیوں کا موازنہ کر سکتے ہیں۔ افادیت کی تقریب U.

آئیے اب اوپر دیکھی گئی دو پالیسیوں کی افادیت کا موازنہ کریں:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

نتائج سے پتہ چلتا ہے کہ پالیسی A انعام تلاش کرنے کا بہتر راستہ ہے۔ اس طرح، ایجنٹ پاتھ A کو پالیسی B پر استعمال کرے گا۔

ایکسپلوریشن بمقابلہ استحصال

کمک سیکھنے میں ایکسپلوریشن بمقابلہ استحصال تجارت کا مسئلہ ایک مخمصہ ہے جس کا ایک ایجنٹ کو فیصلہ کے عمل کے دوران سامنا کرنا پڑتا ہے۔

کیا ایجنٹوں کو نئے راستوں یا اختیارات کو تلاش کرنے پر توجہ دینی چاہئے یا انہیں ان اختیارات کا استحصال جاری رکھنا چاہئے جو وہ پہلے سے جانتے ہیں؟

اگر ایجنٹ دریافت کرنے کا انتخاب کرتا ہے، تو ایجنٹ کے لیے ایک بہتر آپشن تلاش کرنے کا امکان ہے، لیکن اس سے وقت اور وسائل ضائع ہونے کا خطرہ بھی ہو سکتا ہے۔ دوسری طرف، اگر ایجنٹ اس حل سے فائدہ اٹھانے کا انتخاب کرتا ہے جسے وہ پہلے سے جانتا ہے، تو وہ ایک بہتر آپشن سے محروم رہ سکتا ہے۔

عملی ایپلی کیشنز

یہاں کچھ طریقے ہیں۔ اے آئی محققین حقیقی دنیا کے مسائل کو حل کرنے کے لیے کمک سیکھنے کے ماڈل کا اطلاق کیا ہے:

سیلف ڈرائیونگ کاروں میں کمک سیکھنا

محفوظ طریقے سے اور موثر طریقے سے گاڑی چلانے کی صلاحیت کو بہتر بنانے کے لیے خود سے چلنے والی کاروں پر کمک سیکھنے کا اطلاق کیا گیا ہے۔ ٹیکنالوجی خود مختار کاروں کو ان کی غلطیوں سے سیکھنے کے قابل بناتی ہے اور اپنی کارکردگی کو بہتر بنانے کے لیے اپنے رویے کو مسلسل ایڈجسٹ کرتی ہے۔

کمک سیکھنے کا استعمال خود ڈرائیونگ کے لیے کیا جاتا ہے۔

مثال کے طور پر، لندن میں قائم AI کمپنی ویو خود مختار ڈرائیونگ کے لیے ایک گہری کمک سیکھنے کے ماڈل کو کامیابی کے ساتھ لاگو کیا ہے۔ اپنے تجربے میں، انہوں نے ایک انعامی فنکشن استعمال کیا جو گاڑی کے چلنے والے وقت کی مقدار کو زیادہ سے زیادہ بناتا ہے جب کہ ڈرائیور ان پٹ فراہم کیے بغیر چلتا ہے۔

RL ماڈل کاروں کو ماحول کی بنیاد پر فیصلے کرنے میں بھی مدد کرتے ہیں، جیسے کہ رکاوٹوں سے بچنا یا ٹریفک میں ضم ہونا۔ ان ماڈلز کو کار کے ارد گرد کے پیچیدہ ماحول کو ایک نمائندہ ریاستی جگہ میں تبدیل کرنے کا راستہ تلاش کرنا چاہیے جسے ماڈل سمجھ سکتا ہے۔

روبوٹکس میں کمک سیکھنا

محققین روبوٹ تیار کرنے کے لیے کمک سیکھنے کا بھی استعمال کر رہے ہیں جو پیچیدہ کام سیکھ سکتے ہیں۔ ان آر ایل ماڈلز کے ذریعے روبوٹ اپنے ماحول کا مشاہدہ کرنے اور اپنے مشاہدات کی بنیاد پر فیصلے کرنے کے قابل ہوتے ہیں۔

مثال کے طور پر، بائی پیڈل روبوٹ کو سیکھنے کی اجازت دینے کے لیے کمک سیکھنے کے ماڈلز کے استعمال پر تحقیق کی گئی ہے۔ چلنا اپنے بل بوتے پے.

کمک سیکھنا ایک روبوٹ کو چلنا سکھانا

محققین RL کو روبوٹکس کے میدان میں ایک اہم طریقہ سمجھتے ہیں۔ کمک سیکھنا روبوٹک ایجنٹوں کو نفیس اعمال سیکھنے کا ایک فریم ورک فراہم کرتا ہے جو دوسری صورت میں انجینئر کرنا مشکل ہو سکتا ہے۔

گیمنگ میں کمک سیکھنا

ویڈیو گیمز کھیلنے کا طریقہ سیکھنے کے لیے RL ماڈل بھی استعمال کیے گئے ہیں۔ ایجنٹوں کو ان کی غلطیوں سے سیکھنے اور کھیل میں اپنی کارکردگی کو مسلسل بہتر بنانے کے لیے قائم کیا جا سکتا ہے۔

محققین نے پہلے ہی ایسے ایجنٹ تیار کیے ہیں جو شطرنج، گو اور پوکر جیسے کھیل کھیل سکتے ہیں۔ 2013 میں، Deepmind ڈیپ انفورسمنٹ لرننگ کا استعمال کیا تاکہ ماڈل کو شروع سے اٹاری گیمز کھیلنے کا طریقہ سیکھنے کی اجازت دی جا سکے۔

بہت سے بورڈ گیمز اور ویڈیو گیمز میں ایکشن کی ایک محدود جگہ اور ایک اچھی طرح سے طے شدہ ٹھوس مقصد ہوتا ہے۔ یہ خصلتیں RL ماڈل کے فائدے کے لیے کام کرتی ہیں۔ فتح حاصل کرنے کے لیے بہترین حکمت عملیوں کو سیکھنے کے لیے RL طریقے لاکھوں مصنوعی گیمز کو تیزی سے اعادہ کر سکتے ہیں۔

نتیجہ

چاہے یہ چلنا سیکھنا ہو یا ویڈیو گیمز کھیلنا سیکھنا ہو، RL ماڈل ایسے مسائل کو حل کرنے کے لیے مفید AI فریم ورک ثابت ہوئے ہیں جن کے لیے پیچیدہ فیصلہ سازی کی ضرورت ہوتی ہے۔

جیسے جیسے ٹیکنالوجی کا ارتقا جاری ہے، محققین اور ڈویلپرز دونوں نئی ایپلی کیشنز تلاش کرتے رہیں گے جو ماڈل کی خود تدریسی صلاحیت سے فائدہ اٹھاتے ہیں۔

آپ کے خیال میں کن عملی ایپلی کیشنز کو کمک سیکھنے میں مدد مل سکتی ہے؟

کمک سیکھنا: AI جو اپنی غلطیوں سے سیکھتا ہے۔

کمک سیکھنے کیا ہے؟