Gücləndirici Öyrənmə: Səhvlərindən öyrənən AI

Mündəricat[Gizlət][Göstər]

Möhkəmləndirici öyrənmə nədir?
Sadə bir nümunə: 4×4 şəbəkə+-
- Siyasətlər və Mükafatlar
- Kəşfiyyat və İstismar
Praktiki Proqramlar+-
Nəticə

Təsəvvür edək ki, siz robota yeriməyi öyrətməyə çalışırsınız. Kompüterə səhm qiymətlərini proqnozlaşdırmaq və ya şəkilləri kateqoriyalara ayırmağı öyrətməkdən fərqli olaraq, robotumuzu öyrətmək üçün istifadə edə biləcəyimiz böyük bir məlumat dəstimiz yoxdur.

Sizə təbii gəlsə də, gəzmək əslində çox mürəkkəb bir hərəkətdir. Bir addım yerimək adətən onlarla müxtəlif əzələlərin birlikdə işləməsini əhatə edir. Bir yerdən digərinə yerimək üçün istifadə edilən səylər və üsullar da müxtəlif amillərdən, o cümlədən nəyisə daşımağınızdan və ya meyl və ya digər maneələrin olub-olmamasından asılıdır.

Bu kimi ssenarilərdə biz gücləndirici öyrənmə və ya RL kimi tanınan metoddan istifadə edə bilərik. RL ilə siz modelinizin həll etməsini istədiyiniz konkret məqsədi müəyyən edə və tədricən modelin buna necə nail olacağını öyrənməsinə icazə verə bilərsiniz.

Bu yazıda biz gücləndirici öyrənmənin əsaslarını və RL çərçivəsini real dünyada müxtəlif müxtəlif problemlərə necə tətbiq edə biləcəyimizi araşdıracağıq.

Möhkəmləndirici öyrənmə nədir?

Möhkəmləndirici öyrənmə müəyyən bir alt qrupa aiddir maşın təlim arzu olunan davranışları mükafatlandırmaq və arzuolunmaz davranışları cəzalandırmaq yolu ilə həll yollarının tapılmasına diqqət yetirir.

möhkəmləndirmə öyrənmə çərçivəsinin diaqramı

Nəzarət olunan öyrənmədən fərqli olaraq, gücləndirici öyrənmə metodu adətən verilmiş giriş üçün düzgün çıxışı təmin edən təlim verilənlər bazasına malik deyil. Təlim məlumatları olmadıqda, alqoritm sınaq və səhv yolu ilə həllini tapmalıdır. Adi olaraq istinad etdiyimiz alqoritm agent, ilə qarşılıqlı əlaqədə olaraq öz həllini tapmalıdır ətraf mühit.

Tədqiqatçılar konkret nəticələrə qərar verirlər mükafat və alqoritmin nəyə qadir olduğunu. Hər fəaliyyət alqoritm alqoritmin nə qədər yaxşı olduğunu qiymətləndirən bir növ rəy alacaq. Təlim prosesi zamanı alqoritm nəhayət müəyyən problemin həlli üçün optimal həll yolunu tapacaqdır.

Sadə bir nümunə: 4×4 şəbəkə

Möhkəmləndirici öyrənmə ilə həll edə biləcəyimiz sadə bir problem nümunəsinə nəzər salaq.

Tutaq ki, bizim mühitimiz olaraq 4×4 şəbəkəmiz var. Agentimiz bir neçə maneə ilə birlikdə meydanlardan birinə təsadüfi şəkildə yerləşdirilir. Şəbəkədə qarşısı alınmalı olan üç “çuxur” maneə və agentin tapmalı olduğu bir “almaz” mükafatı olmalıdır. Ətraf mühitimizin tam təsviri ətraf mühit kimi tanınır idi.

gücləndirici öyrənmə simulyasiya edilmiş mühitlə qarşılıqlı əlaqədə olan agentə əsaslanır

RL modelimizdə agentimiz onlara mane olan heç bir maneə olmadığı müddətcə istənilən bitişik kvadrata keçə bilər. Müəyyən bir mühitdə bütün etibarlı hərəkətlər toplusu kimi tanınır fəaliyyət sahəsi. Agentimizin məqsədi mükafata aparan ən qısa yolu tapmaqdır.

agentin müəyyən bir vəziyyətdə fəaliyyət sahəsi və ya etibarlı hərəkətlər toplusu var

Agentimiz ən az addım tələb edən almaza aparan yolu tapmaq üçün gücləndirici öyrənmə metodundan istifadə edəcək. Hər düzgün addım robota bir mükafat verəcək və hər səhv addım robotun mükafatını çıxaracaq. Model agent almaza çatdıqdan sonra ümumi mükafatı hesablayır.

İndi agenti və mühiti müəyyən etdikdən sonra agentin cari vəziyyətini və ətraf mühiti nəzərə alaraq həyata keçirəcəyi növbəti hərəkəti müəyyən etmək üçün istifadə edəcəyimiz qaydaları da müəyyən etməliyik.

Siyasətlər və Mükafatlar

Möhkəmləndirici öyrənmə modelində, a siyasət agentin məqsədlərinə çatmaq üçün istifadə etdiyi strategiyaya aiddir. Agentin siyasəti agentin və onun mühitinin cari vəziyyətini nəzərə alaraq agentin bundan sonra nə etməli olduğuna qərar verən şeydir.

Hansı siyasətin optimal olduğunu görmək üçün agent bütün mümkün siyasətləri qiymətləndirməlidir.

siyasətlərinin qiymətləndirilməsi

Sadə nümunəmizdə boş yerə eniş -1 dəyərini qaytaracaq. Agent almaz mükafatı olan yerə endikdə, onlar 10 dəyəri alacaqlar. Bu dəyərlərdən istifadə edərək, müxtəlif siyasətləri müqayisə edə bilərik. kommunal funksiyası U.

İndi yuxarıda göstərilən iki siyasətin faydasını müqayisə edək:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Nəticələr göstərir ki, Siyasət A mükafatı tapmaq üçün daha yaxşı yoldur. Beləliklə, agent Siyasət B üzərində A yolundan istifadə edəcək.

Kəşfiyyat və İstismar

Gücləndirici öyrənmədə kəşfiyyat və istismar problemi agentin qərar vermə prosesi zamanı qarşılaşmalı olduğu dilemmadır.

Agentlər yeni yolları və ya variantları araşdırmağa diqqət etməlidirlər, yoxsa artıq bildikləri seçimlərdən istifadə etməyə davam etməlidirlər?

Əgər agent kəşfiyyatı seçirsə, agentin daha yaxşı variant tapmaq imkanı var, lakin o, həm də vaxt və resursları itirmək riski ilə üzləşə bilər. Digər tərəfdən, agent artıq bildiyi həll yolu istifadə etməyi seçərsə, daha yaxşı variantı əldən verə bilər.

Praktiki Proqramlar

Burada bəzi yollar var AI tədqiqatçıları real dünya problemlərini həll etmək üçün gücləndirici öyrənmə modellərini tətbiq etmişlər:

Özünü idarə edən avtomobillərdə möhkəmləndirmə öyrənilməsi

Təhlükəsiz və səmərəli idarə etmək qabiliyyətini təkmilləşdirmək üçün özünü idarə edən avtomobillərə gücləndirici öyrənmə tətbiq edilmişdir. Texnologiya avtonom avtomobillərə öz səhvlərindən dərs almağa və performanslarını optimallaşdırmaq üçün davranışlarını daim tənzimləməyə imkan verir.

özünü idarə etmək üçün istifadə olunan gücləndirici öyrənmə

Məsələn, Londonda yerləşən AI şirkəti Wayve avtonom sürücülük üçün dərin möhkəmləndirmə öyrənmə modelini uğurla tətbiq etmişdir. Təcrübələrində onlar sürücünün giriş təmin etmədən avtomobilin işləmə müddətini maksimuma çatdıran mükafat funksiyasından istifadə ediblər.

RL modelləri həmçinin avtomobillərə ətraf mühitə əsaslanaraq maneələrdən qaçmaq və ya trafikə birləşmək kimi qərarlar qəbul etməyə kömək edir. Bu modellər avtomobili əhatə edən mürəkkəb mühiti modelin başa düşə biləcəyi nümayəndəli dövlət məkanına çevirmək üçün bir yol tapmalıdır.

Robototexnikada möhkəmləndirmə öyrənilməsi

Tədqiqatçılar həmçinin mürəkkəb tapşırıqları öyrənə bilən robotlar hazırlamaq üçün möhkəmləndirmə öyrənmələrindən istifadə edirlər. Bu RL modelləri vasitəsilə robotlar öz ətraflarını müşahidə edə və müşahidələri əsasında qərarlar qəbul edə bilirlər.

Məsələn, ikiayaqlı robotların necə öyrənməsinə imkan vermək üçün gücləndirici öyrənmə modellərindən istifadə ilə bağlı araşdırmalar aparılmışdır gəzmək özləri.

robota yeriməyi öyrədən gücləndirici öyrənmə

Tədqiqatçılar RL-ni robototexnika sahəsində əsas metod hesab edirlər. Gücləndirici öyrənmə robot agentlərinə başqa cür mühəndisliyi çətin ola biləcək mürəkkəb hərəkətləri öyrənmək üçün çərçivə verir.

Oyunda Gücləndirici Öyrənmə

RL modelləri video oyunların necə oynanacağını öyrənmək üçün də istifadə edilmişdir. Agentlər öz səhvlərindən nəticə çıxarmaq və oyundakı performanslarını daim təkmilləşdirmək üçün yaradıla bilər.

Tədqiqatçılar artıq şahmat, Go və poker kimi oyunları oynaya bilən agentlər hazırlayıblar. 2013-cü ildə DeepMind Modelə Atari oyunlarını sıfırdan necə oynamağı öyrənməyə imkan vermək üçün Dərin Gücləndirmə Öyrənməsindən istifadə etdi.

Bir çox stolüstü oyunlar və video oyunların məhdud fəaliyyət sahəsi və dəqiq müəyyən edilmiş konkret məqsədi var. Bu xüsusiyyətlər RL modelinin üstünlüyünə işləyir. RL metodları qələbə qazanmaq üçün optimal strategiyaları öyrənmək üçün milyonlarla simulyasiya edilmiş oyunu tez bir zamanda təkrarlaya bilər.

Nəticə

İstər gəzməyi, istərsə də video oyunları oynamağı öyrənmək olsun, RL modellərinin mürəkkəb qərar qəbul etməyi tələb edən problemlərin həlli üçün faydalı AI çərçivələri olduğu sübut edilmişdir.

Texnologiya inkişaf etməyə davam etdikcə həm tədqiqatçılar, həm də tərtibatçılar modelin özünü öyrətmə qabiliyyətindən istifadə edən yeni tətbiqlər tapmağa davam edəcəklər.

Sizcə, möhkəmləndirmə öyrənmə hansı praktik tətbiqlərə kömək edə bilər?

Gücləndirici Öyrənmə: Səhvlərindən öyrənən AI

Möhkəmləndirici öyrənmə nədir?