مضبوط ڪرڻ واري سکيا: AI جيڪو سکي ٿو پنهنجي غلطين مان

مواد جي جدول[لڪ][ڏسو]

تقویت واري سکيا ڇا آهي؟
هڪ سادي مثال: 4 × 4 گرڊ+-
- پاليسيون ۽ انعام
- استحصال بمقابله استحصال
عملي درخواستون+-
ٿڪل

اچو ته تصور ڪريو ته توهان هڪ روبوٽ کي سيکارڻ جي ڪوشش ڪري رهيا آهيو ته ڪيئن هلڻ. ڪمپيوٽر کي سيکارڻ جي برعڪس ڪيئن اسٽاڪ جي قيمتن جي اڳڪٿي ڪجي يا تصويرن کي درجه بندي ڪجي، اسان وٽ حقيقت ۾ هڪ وڏو ڊيٽا سيٽ ناهي جيڪو اسان پنهنجي روبوٽ کي تربيت ڏيڻ لاءِ استعمال ڪري سگهون.

جيتوڻيڪ اهو قدرتي طور تي توهان وٽ اچي سگهي ٿو، پنڌ اصل ۾ هڪ تمام پيچيده عمل آهي. ھڪڙو قدم ھلڻ ۾ عام طور تي شامل آھن ڪيترن ئي مختلف عضون گڏجي ڪم ڪري رھيا آھن. هڪ هنڌ کان ٻئي هنڌ هلڻ لاءِ استعمال ٿيندڙ ڪوششون ۽ ٽيڪنڪون به مختلف عنصرن تي ڀاڙين ٿيون، جنهن ۾ شامل آهي ته ڇا توهان ڪا شيءِ کڻي رهيا آهيو يا اتي ڪا لنگهه آهي يا رڪاوٽن جا ٻيا روپ.

اهڙين حالتن ۾، اسان هڪ طريقو استعمال ڪري سگهون ٿا جيڪو سڃاتل طريقي سان سکيا يا RL طور سڃاتو وڃي ٿو. آر ايل سان، توهان هڪ خاص مقصد بيان ڪري سگهو ٿا جيڪو توهان چاهيو ٿا ته توهان جو ماڊل حل ڪري ۽ تدريجي طور تي ماڊل کي سکڻ ڏيو ته اهو ڪيئن حاصل ڪجي.

هن آرٽيڪل ۾، اسين ڳولينداسين بنياديات کي مضبوط ڪرڻ واري سکيا جي ۽ اسان ڪيئن لاڳو ڪري سگهون ٿا RL فريم ورڪ کي حقيقي دنيا ۾ مختلف مسئلن تي.

تقویت واري سکيا ڇا آهي؟

Reinforcement Learning هڪ خاص ذيلي سيٽ ڏانهن اشارو ڪري ٿو مشين جي سکيا جيڪو مطلوب رويي کي انعام ڏيڻ ۽ ناپسنديده رويي کي سزا ڏيڻ سان حل ڳولڻ تي ڌيان ڏئي ٿو.

مضبوط ڪرڻ واري سکيا واري فريم ورڪ جو خاڪو

نگراني ٿيل سکيا جي برعڪس، تربيتي سکيا جو طريقو عام طور تي تربيتي ڊيٽا سيٽ نه هوندو آهي جيڪو ڏنل ان پٽ لاءِ صحيح پيداوار مهيا ڪري. ٽريننگ ڊيٽا جي غير موجودگي ۾، الورورٿم کي آزمائشي ۽ غلطي ذريعي حل ڳولڻ گهرجي. الورورٿم، جنهن کي اسين عام طور تي حوالو ڏيون ٿا ايجنٽ، پاڻ سان رابطو ڪري حل ڳولڻ گهرجي ماحول.

محقق فيصلو ڪن ٿا ته ڪهڙا خاص نتيجا نڪرندا ثواب ۽ الورورٿم ڇا ڪرڻ جي قابل آهي. هر عمل الورورٿم وٺندي راءِ جي ڪجهه شڪل وصول ڪندي جيڪا اسڪور ڪري ٿي ته الورورٿم ڪيترو ڪم ڪري رهيو آهي. تربيت جي عمل دوران، الورورٿم آخرڪار هڪ خاص مسئلي کي حل ڪرڻ لاء بهترين حل ڳولي سگهندو.

هڪ سادي مثال: 4 × 4 گرڊ

اچو ته هڪ سادي مثال تي هڪ نظر وجهون هڪ مسئلي جي جنهن کي اسين حل ڪري سگهون ٿا تقويٰ جي سکيا سان.

فرض ڪريو اسان وٽ اسان جي ماحول جي طور تي 4 × 4 گرڊ آهي. اسان جو ايجنٽ بي ترتيب طور تي ھڪڙي چوڪن ۾ رکيل آھي ۽ ڪجھ رڪاوٽون. گرڊ ۾ ٽي ”پٽ“ رڪاوٽون هونديون جن کان پاسو ڪيو وڃي ۽ هڪ واحد ”هيرا“ انعام جنهن کي ايجنٽ ڳولڻ گهرجي. اسان جي ماحول جي مڪمل وضاحت کي ماحول جي طور سڃاتو وڃي ٿو رياست.

reinforcement learning هڪ ايجنٽ تي ڀاڙي ٿو جيڪو هڪ تخليقي ماحول سان رابطو ڪري ٿو

اسان جي آر ايل ماڊل ۾، اسان جو ايجنٽ ڪنهن به ڀرسان چورس ڏانهن منتقل ڪري سگهي ٿو جيستائين انهن کي روڪڻ ۾ ڪا به رڪاوٽ نه آهي. ڏنل ماحول ۾ سڀني صحيح عملن جي سيٽ کي سڏيو ويندو آهي عمل جي گنجائش. اسان جي ايجنٽ جو مقصد انعام لاء ننڍو رستو ڳولڻ آهي.

ايجنٽ وٽ هڪ عمل جي جاءِ آهي يا ڏنل رياست ۾ صحيح عملن جو سيٽ

اسان جو نمائندو استعمال ڪندو تقويٰ جي سکيا وارو طريقو ان هيرن جو رستو ڳولڻ لاءِ جنهن کي گهٽ ۾ گهٽ قدمن جي ضرورت آهي. هر صحيح قدم روبوٽ کي انعام ڏيندو ۽ هر غلط قدم روبوٽ جي انعام کي گھٽائي ڇڏيندو. ماڊل مجموعي انعام جو حساب ڪري ٿو جڏهن ايجنٽ هيرن تائين پهچي ٿو.

هاڻي ته اسان ايجنٽ ۽ ماحول جي وضاحت ڪئي آهي، اسان کي لازمي طور تي مقرر ڪرڻ لاءِ استعمال ڪرڻ جا قاعدا بيان ڪرڻا پوندا ته ايندڙ عمل کي مقرر ڪرڻ لاءِ جيڪو ايجنٽ کڻندو ان جي موجوده حالت ۽ ماحول کي ڏسندي.

پاليسيون ۽ انعام

هڪ مضبوط سکيا واري ماڊل ۾، الف پاليسي حڪمت عملي ڏانهن اشارو ڪري ٿو جيڪو ايجنٽ طرفان استعمال ڪيو ويو آهي انهن جي مقصدن کي حاصل ڪرڻ لاء. ايجنٽ جي پاليسي اها آهي ته اهو فيصلو ڪري ٿو ته ايجنٽ کي ڇا ڪرڻ گهرجي ايجنٽ جي موجوده حالت ۽ ان جي ماحول کي.

ايجنٽ کي لازمي طور تي سڀني ممڪن پاليسين جو جائزو وٺڻ گهرجي ته ڪهڙي پاليسي بهتر آهي.

پاليسين جو جائزو وٺڻ

اسان جي سادي مثال ۾، هڪ خالي جاء تي لينڊنگ -1 جي قيمت واپس ڪندو. جڏهن ايجنٽ هيرن جي انعام سان گڏ جڳهه تي لينڊ ڪندو، انهن کي 10 جي قيمت ملندي. انهن قيمتن کي استعمال ڪندي، اسان مختلف پاليسين جو مقابلو ڪري سگهون ٿا. افاديت فنڪشن U.

اچو ته ھاڻي مٿي ڏٺل ٻنھي پاليسين جي افاديت جو مقابلو ڪريون:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

نتيجن مان ظاهر ٿئي ٿو ته پاليسي A انعام ڳولڻ لاء بهتر رستو آهي. اهڙيءَ طرح، ايجنٽ پاٿ A کي پاليسي B تي استعمال ڪندو.

استحصال بمقابله استحصال

تجزيه بمقابله استحصال واپار جو مسئلو مضبوط ڪرڻ واري سکيا ۾ هڪ مشڪوڪ آهي جيڪو هڪ ايجنٽ کي فيصلي جي عمل دوران منهن ڏيڻ گهرجي.

ڇا ايجنٽن کي نون رستن يا اختيارن کي ڳولڻ تي ڌيان ڏيڻ گھرجي يا انھن کي انھن اختيارن جو استحصال جاري رکڻ گھرجي جيڪي اھي اڳ ۾ ئي ڄاڻن ٿا؟

جيڪڏهن ايجنٽ ڳولڻ جو انتخاب ڪري ٿو، اتي ايجنٽ لاء هڪ بهتر اختيار ڳولڻ جو امڪان آهي، پر اهو پڻ وقت ۽ وسيلن کي ضايع ڪرڻ جو خطرو ڪري سگهي ٿو. ٻئي طرف، جيڪڏهن ايجنٽ چونڊيندو حل جو استحصال ڪرڻ جو اهو اڳ ۾ ئي ڄاڻي ٿو، اهو شايد هڪ بهتر اختيار تي وڃائي سگھي ٿو.

عملي درخواستون

هتي ڪجهه طريقا آهن AI محقق حقيقي دنيا جي مسئلن کي حل ڪرڻ لاءِ سکيا جا ماڊل لاڳو ڪيا ويا آهن:

خود ڊرائيونگ ڪارن ۾ مضبوط ڪرڻ جي سکيا

سيلف ڊرائيونگ ڪارن تي لاڳو ڪيو ويو آهي مضبوط ڪرڻ واري سکيا انهن جي محفوظ ۽ موثر طريقي سان هلائڻ جي صلاحيت کي بهتر بڻائڻ لاءِ. ٽيڪنالاجي خودمختيار ڪارڪنن کي انهن جي غلطين مان سکڻ جي قابل بڻائي ٿي ۽ انهن جي ڪارڪردگي کي بهتر ڪرڻ لاء مسلسل انهن جي رويي کي ترتيب ڏئي ٿي.

سيلف ڊرائيونگ لاءِ استعمال ٿيندڙ تربيت

مثال طور، لنڊن جي بنياد تي AI ڪمپني واٽ ڪاميابيءَ سان خودمختيار ڊرائيونگ لاءِ هڪ گہرے مضبوطي واري سکيا وارو ماڊل لاڳو ڪيو آهي. انهن جي تجربي ۾، انهن هڪ انعامي فنڪشن استعمال ڪيو جيڪو ان پٽ مهيا ڪرڻ واري ڊرائيور جي بغير گاڏي هلائڻ جي وقت کي وڌائي ٿو.

RL ماڊل ڪارن کي ماحول جي بنياد تي فيصلا ڪرڻ ۾ پڻ مدد ڪن ٿا، جهڙوڪ رڪاوٽن کان بچڻ يا ٽرئفڪ ۾ ضم ٿيڻ. انهن ماڊلز کي ڪار جي چوڌاري پيچيده ماحول کي نمائندي رياست جي جڳهه ۾ تبديل ڪرڻ جو هڪ طريقو ڳولڻ گهرجي جيڪو ماڊل سمجهي سگهي ٿو.

روبوٽڪس ۾ مضبوط ڪرڻ جي سکيا

محقق پڻ روبوٽس کي ترقي ڪرڻ لاء مضبوط سکيا استعمال ڪري رهيا آهن جيڪي پيچيده ڪم سکڻ وارا آهن. انهن آر ايل ماڊلز ذريعي، روبوٽ پنهنجي ماحول جو مشاهدو ڪرڻ ۽ انهن جي مشاهدي جي بنياد تي فيصلا ڪرڻ جي قابل هوندا آهن.

مثال طور، رينفورسمينٽ لرننگ ماڊل استعمال ڪرڻ تي تحقيق ڪئي وئي آهي ته جيئن بائپيڊل روبوٽس کي سکڻ جي اجازت ڏني وڃي ته ڪيئن پنڌ انهن تي پنهنجي طرفان.

مضبوط ڪرڻ واري سکيا هڪ روبوٽ کي هلڻ سيکاريندي

محقق RL کي روبوٽڪس جي ميدان ۾ هڪ اهم طريقو سمجهن ٿا. مضبوط ڪرڻ واري سکيا روبوٽڪ ايجنٽن کي نفيس ڪارناما سکڻ لاءِ هڪ فريم ورڪ ڏئي ٿي جيڪا ٻي صورت ۾ انجنيئر ڪرڻ مشڪل ٿي سگهي ٿي.

گیمنگ ۾ مضبوط ڪرڻ جي سکيا

RL ماڊل پڻ استعمال ڪيا ويا آهن سکڻ لاءِ ته ڪيئن وڊيو گيمز کيڏڻ. ايجنٽ مقرر ڪري سگھجن ٿا انهن جي غلطين مان سکڻ لاءِ ۽ مسلسل راند ۾ انهن جي ڪارڪردگي بهتر ڪرڻ.

محقق اڳ ۾ ئي ايجنٽ ٺاهيا آهن جيڪي رانديون کيڏي سگهن ٿيون جهڙوڪ شطرنج، گو، ۽ پوکر. 2013 ۾، Deepmind استعمال ڪيو ڊيپ رينفورسمينٽ لرننگ هڪ ماڊل کي سکڻ جي اجازت ڏيڻ لاءِ ته Atari رانديون شروع کان ڪيئن کيڏجن.

ڪيتريون ئي بورڊ گيمز ۽ وڊيو گيمز ۾ محدود ايڪشن اسپيس ۽ هڪ چڱي طرح بيان ڪيل ڪنڪريٽ مقصد آهي. اهي خاصيتون RL ماڊل جي فائدي لاء ڪم ڪن ٿيون. RL طريقا تڪڙو تڪڙو ڪري سگھن ٿا لکن کان وڌيڪ نقلي رانديون فتح حاصل ڪرڻ لاءِ بھترين حڪمت عمليون سکڻ لاءِ.

ٿڪل

ڇا اهو سکڻ آهي ته ڪيئن هلڻ يا وڊيو گيمز کيڏڻ سکڻ، RL ماڊل ثابت ڪيا ويا آهن ڪارائتو AI فريم ورڪ انهن مسئلن کي حل ڪرڻ لاءِ جيڪي پيچيده فيصلا ڪرڻ جي ضرورت هونديون آهن.

جيئن ته ٽيڪنالاجي ترقي ڪندي رهي ٿي، محقق ۽ ڊولپر ٻئي نئين ايپليڪيشنون ڳولڻ جاري رکندا جيڪي ماڊل جي خود تدريس جي صلاحيت مان فائدو وٺن.

ڪهڙيون عملي ايپليڪيشنون توهان سوچيو ٿا ته تقويٰ جي سکيا سان مدد ڪري سگهي ٿي؟

قابليت جي سکيا: AI جيڪو سکي ٿو پنهنجي غلطين مان

تقویت واري سکيا ڇا آهي؟