یادگیری تقویتی: هوش مصنوعی که از اشتباهات خود درس می گیرد

فهرست مندرجات[پنهان شدن][نمایش]

یادگیری تقویتی چیست؟
یک مثال ساده: شبکه 4×4+-
- سیاست ها و پاداش ها
- اکتشاف در مقابل بهره برداری
برنامه های کاربردی عملی+-
نتیجه

بیایید تصور کنیم که در حال تلاش برای آموزش راه رفتن به یک ربات هستید. برخلاف آموزش رایانه برای پیش‌بینی قیمت سهام یا دسته‌بندی تصاویر، ما واقعاً مجموعه داده بزرگی نداریم که بتوانیم از آن برای آموزش ربات خود استفاده کنیم.

در حالی که ممکن است به طور طبیعی برای شما پیش بیاید، پیاده روی در واقع یک عمل بسیار پیچیده است. راه رفتن یک پله معمولاً شامل ده ها ماهیچه مختلف است که با هم کار می کنند. تلاش و تکنیک های مورد استفاده برای راه رفتن از یک مکان به مکان دیگر نیز به عوامل مختلفی بستگی دارد، از جمله اینکه آیا شما چیزی را حمل می کنید یا اینکه آیا شیب یا اشکال دیگری از موانع وجود دارد.

در سناریوهایی مانند این، می‌توانیم از روشی به نام یادگیری تقویتی یا RL استفاده کنیم. با RL، می‌توانید هدف خاصی را که می‌خواهید مدلتان حل کند، تعریف کنید و به تدریج اجازه دهید مدل به تنهایی نحوه انجام آن را بیاموزد.

در این مقاله، اصول یادگیری تقویتی و چگونگی اعمال چارچوب RL را برای انواع مشکلات مختلف در دنیای واقعی بررسی خواهیم کرد.

یادگیری تقویتی چیست؟

یادگیری تقویتی به زیر مجموعه خاصی از فراگیری ماشین که بر یافتن راه حل از طریق پاداش دادن به رفتارهای مطلوب و تنبیه رفتارهای ناخواسته تمرکز دارد.

نمودار چارچوب یادگیری تقویتی

برخلاف یادگیری تحت نظارت، روش یادگیری تقویتی معمولاً دارای مجموعه داده آموزشی نیست که خروجی مناسبی را برای یک ورودی مشخص ارائه دهد. در غیاب داده های آموزشی، الگوریتم باید راه حل را از طریق آزمون و خطا پیدا کند. الگوریتمی که ما معمولاً از آن به عنوان an یاد می کنیم عامل، باید راه حل خود را با تعامل با محیط.

محققان تصمیم می گیرند که چه نتایج خاصی داشته باشند پاداش و آنچه الگوریتم قادر به انجام آن است. هر اقدام الگوریتم طول می کشد نوعی بازخورد دریافت می کند که نشان می دهد الگوریتم چقدر خوب عمل می کند. در طول فرآیند آموزش، الگوریتم در نهایت راه حل بهینه را برای حل یک مشکل خاص پیدا می کند.

یک مثال ساده: شبکه 4×4

بیایید نگاهی به یک مثال ساده از مسئله ای بیندازیم که می توانیم با یادگیری تقویتی حل کنیم.

فرض کنید ما یک شبکه 4×4 به عنوان محیط خود داریم. عامل ما به صورت تصادفی در یکی از مربع ها به همراه چند مانع قرار می گیرد. شبکه باید شامل سه مانع "گودال" باشد که باید از آنها اجتناب شود و یک جایزه "الماس" که نماینده باید پیدا کند. توصیف کامل محیط ما به عنوان محیط شناخته می شود بود.

یادگیری تقویتی به عاملی متکی است که با یک محیط شبیه سازی شده در تعامل است

در مدل RL ما، تا زمانی که هیچ مانعی وجود نداشته باشد، عامل ما می تواند به هر مربع مجاور حرکت کند. مجموعه ای از تمام اقدامات معتبر در یک محیط معین به عنوان شناخته شده است فضای عمل. هدف نماینده ما یافتن کوتاه ترین مسیر برای رسیدن به پاداش است.

عامل دارای یک فضای عمل یا مجموعه ای از اقدامات معتبر در یک وضعیت معین است

نماینده ما از روش یادگیری تقویتی برای یافتن مسیر الماسی که نیاز به حداقل مراحل دارد استفاده می کند. هر مرحله درست به ربات جایزه می دهد و هر قدم اشتباه پاداش ربات را کم می کند. این مدل پس از رسیدن نماینده به الماس، کل پاداش را محاسبه می کند.

اکنون که عامل و محیط را تعریف کرده ایم، باید قوانینی را نیز برای تعیین اقدام بعدی که عامل با توجه به وضعیت فعلی و محیط انجام می دهد، تعریف کنیم.

سیاست ها و پاداش ها

در یک مدل یادگیری تقویتی، الف سیاست به استراتژی استفاده شده توسط یک عامل برای دستیابی به اهداف خود اشاره دارد. خط مشی عامل آن چیزی است که تصمیم می گیرد با توجه به وضعیت فعلی عامل و محیط آن، عامل بعدی چه کاری انجام دهد.

عامل باید تمام سیاست های ممکن را ارزیابی کند تا ببیند کدام خط مشی بهینه است.

ارزیابی سیاست ها

در مثال ساده ما، فرود در فضای خالی مقدار -1 را برمی گرداند. هنگامی که عامل در فضایی با پاداش الماس فرود می آید، مقدار 10 را دریافت می کند. با استفاده از این مقادیر، می توانیم سیاست های مختلف را با استفاده از یک مقایسه کنیم. تابع سودمند U.

حال بیایید کاربرد دو سیاستی که در بالا دیده شد را با هم مقایسه کنیم:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

نتایج نشان می دهد که خط مشی A مسیر بهتری برای یافتن پاداش است. بنابراین، عامل از مسیر A بر روی خط مشی B استفاده می کند.

اکتشاف در مقابل بهره برداری

مشکل مبادله اکتشاف و بهره برداری در یادگیری تقویتی معضلی است که عامل باید در طول فرآیند تصمیم گیری با آن مواجه شود.

آیا عوامل باید بر کاوش مسیرها یا گزینه های جدید تمرکز کنند یا باید به بهره برداری از گزینه هایی که قبلاً می شناسند ادامه دهند؟

اگر عامل اکتشاف را انتخاب کند، امکان یافتن گزینه بهتر برای عامل وجود دارد، اما ممکن است خطر اتلاف زمان و منابع را نیز به همراه داشته باشد. از سوی دیگر، اگر عامل انتخاب کند که از راه حلی که از قبل می داند بهره برداری کند، ممکن است گزینه بهتری را از دست بدهد.

برنامه های کاربردی عملی

در اینجا چند راه وجود دارد محققان هوش مصنوعی از مدل های یادگیری تقویتی برای حل مسائل دنیای واقعی استفاده کرده اند:

آموزش تقویتی در خودروهای خودران

یادگیری تقویتی برای خودروهای خودران به منظور بهبود توانایی آنها در رانندگی ایمن و کارآمد اعمال شده است. این فناوری خودروهای خودران را قادر می‌سازد تا از اشتباهات خود درس بگیرند و به طور مداوم رفتار خود را تنظیم کنند تا عملکرد خود را بهینه کنند.

یادگیری تقویتی که برای خودرانی استفاده می شود

به عنوان مثال، شرکت هوش مصنوعی مستقر در لندن ویو با موفقیت یک مدل یادگیری تقویتی عمیق را برای رانندگی خودمختار اعمال کرده است. آنها در آزمایش خود از یک تابع پاداش استفاده کردند که مدت زمان حرکت وسیله نقلیه را بدون ارائه ورودی توسط راننده به حداکثر می رساند.

مدل‌های RL همچنین به خودروها در تصمیم‌گیری بر اساس محیط کمک می‌کنند، مانند اجتناب از موانع یا ادغام در ترافیک. این مدل‌ها باید راهی برای تبدیل محیط پیچیده اطراف یک خودرو به فضای حالت نماینده‌ای که مدل بتواند آن را درک کند پیدا کنند.

یادگیری تقویتی در رباتیک

محققان همچنین از یادگیری تقویتی برای توسعه ربات هایی استفاده کرده اند که می توانند کارهای پیچیده را یاد بگیرند. از طریق این مدل های RL، ربات ها قادر به مشاهده محیط خود و تصمیم گیری بر اساس مشاهدات خود هستند.

برای مثال، تحقیقاتی در مورد استفاده از مدل‌های یادگیری تقویتی انجام شده است تا به ربات‌های دوپا اجازه دهد تا یاد بگیرند که چگونه راه رفتن خود به خود.

آموزش تقویتی آموزش راه رفتن به ربات

محققان RL را یک روش کلیدی در زمینه رباتیک می دانند. یادگیری تقویتی به عوامل روباتیک چارچوبی می دهد تا اقدامات پیچیده ای را بیاموزند که ممکن است مهندسی آنها در غیر این صورت دشوار باشد.

تقویت یادگیری در بازی

از مدل های RL نیز برای یادگیری نحوه بازی های ویدیویی استفاده شده است. عوامل را می توان طوری تنظیم کرد که از اشتباهات خود درس بگیرند و به طور مداوم عملکرد خود را در بازی بهبود بخشند.

محققان قبلاً عواملی را توسعه داده اند که می توانند بازی هایی مانند شطرنج، Go و پوکر را انجام دهند. در سال 2013، Deepmind از Deep Reinforcement Learning استفاده کرد تا به یک مدل اجازه دهد چگونه بازی های آتاری را از ابتدا یاد بگیرد.

بسیاری از بازی‌های رومیزی و بازی‌های ویدیویی فضای اکشن محدود و هدف مشخصی دارند. این ویژگی ها به نفع مدل RL است. روش‌های RL می‌توانند به سرعت بیش از میلیون‌ها بازی شبیه‌سازی شده را تکرار کنند تا استراتژی‌های بهینه برای دستیابی به پیروزی را بیاموزند.

نتیجه

ثابت شده است که مدل‌های RL چارچوب‌های هوش مصنوعی مفیدی برای حل مشکلاتی هستند که نیاز به تصمیم‌گیری پیچیده دارند.

همانطور که این فناوری به تکامل خود ادامه می دهد، هم محققان و هم توسعه دهندگان به یافتن برنامه های کاربردی جدیدی که از توانایی خودآموزی مدل استفاده می کنند، ادامه خواهند داد.

به نظر شما یادگیری تقویتی می تواند به چه کاربردهای عملی کمک کند؟

یادگیری تقویتی: هوش مصنوعی که از اشتباهات خود درس می گیرد

یادگیری تقویتی چیست؟