Окууну бекемдөө: каталарынан сабак алган AI

Мазмуну[Жашыруу][Көрсөтүү]

Кыймылдырууну үйрөнүү деген эмне?
Жөнөкөй мисал: 4×4 тор+-
- Саясат жана сыйлыктар
- Чалгындоо жана эксплуатациялоо
практикалык Тиркемелер+-
жыйынтыктоо

Сиз роботко басууну үйрөтүүгө аракет кылып жатасыз деп элестетип көрөлү. Компьютерге акциялардын баасын алдын ала айтууну же сүрөттөрдү классификациялоону үйрөтүүдөн айырмаланып, бизде роботту үйрөтүү үчүн колдоно турган чоң маалымат топтому жок.

Бул сизге табигый көрүнүшү мүмкүн болсо да, басуу чындыгында абдан татаал иш. Бир кадам басуу адатта ондогон түрдүү булчуңдардын чогуу иштешин камтыйт. Бир жерден экинчи жерге басуу үчүн колдонулган күч-аракет жана ыкмалар ар кандай факторлорго, анын ичинде бир нерсени көтөрүп жүргөнүңүзгө же кыйшаюу же башка тоскоолдуктардын бар-жогуна көз каранды.

Ушул сыяктуу сценарийлерде биз бекемдөөчү окутуу же RL деп аталган ыкманы колдонсок болот. RL менен сиз моделиңиз чечүүнү каалаган конкреттүү максатты аныктап, акырындык менен моделге аны кантип ишке ашырууну өз алдынча үйрөнүүгө мүмкүнчүлүк бере аласыз.

Бул макалада биз бекемдөөчү окутуунун негиздерин жана RL алкагын чыныгы дүйнөдө ар кандай көйгөйлөргө кантип колдонсок болорун изилдейбиз.

Кыймылдырууну үйрөнүү деген эмне?

Күчтөндүрүү окуу белгилүү бир бөлүгүн билдирет машина үйрөнүү бул каалаган жүрүм-турумдарды сыйлоо жана керексиз жүрүм-турумдарды жазалоо аркылуу чечимдерди табууга багытталган.

бекемдөөчү окуу негизинин диаграммасы

Көзөмөлдөнгөн окутуудан айырмаланып, бекемдөөчү окутуу методу, адатта, берилген киргизүү үчүн туура жыйынтыкты камсыз кылган окутуу маалымат топтомуна ээ эмес. Окутуу маалыматтары жок болгон учурда, алгоритм сыноо жана ката жолу менен чечимди табышы керек. Биз адатта деп атаган алгоритм агентменен өз ара аракеттенип, өз алдынча чечим табышы керек айлана-чөйрө.

Окумуштуулар кандай натыйжаларга алып барарын чечишет сыйлык жана алгоритм эмне кылууга жөндөмдүү. ар иш-аракеттер Алгоритм алгоритмдин канчалык жакшы иштеп жатканын баалаган пикирдин кандайдыр бир түрүн алат. Окутуу процессинин жүрүшүндө алгоритм акыры белгилүү бир маселени чечүүнүн оптималдуу чечимин табат.

Жөнөкөй мисал: 4×4 тор

Келгиле, билимди бекемдөө менен чече турган көйгөйдүн жөнөкөй мисалын карап көрөлү.

Биздин айлана-чөйрө катары 4×4 торубуз бар дейли. Биздин агент бир нече тоскоолдуктар менен бирге аянттардын бирине туш келди жайгаштырылат. Тордо болтурбоо керек болгон үч "чуңкур" тоскоолдуктар жана агент табышы керек болгон бир "бриллиант" сыйлык болушу керек. Биздин айлана-чөйрөнүн толук сүрөттөлүшү айлана-чөйрөнүн деп аталат мамлекет.

бекемдөө окутуу симуляцияланган чөйрө менен өз ара аракеттенген агентке таянат

Биздин RL моделибизде биздин агент аларга тоскоол болгон эч кандай тоскоолдуктар болбосо, каалаган чектеш аянтка жыла алат. Берилген чөйрөдөгү бардык жарактуу аракеттердин жыйындысы катары белгилүү аракет мейкиндиги. Биздин агенттин максаты - сыйлыкка эң кыска жолду табуу.

агенттин аракет мейкиндиги же берилген абалда жарактуу аракеттердин жыйындысы бар

Биздин агент эң аз кадамдарды талап кылган бриллианттын жолун табуу үчүн бекемдөөчү окутуу ыкмасын колдонот. Ар бир туура кадам роботко сыйлык берет жана ар бир туура эмес кадам роботтун сыйлыгын алып салат. Модель агент алмазга жеткенде жалпы сыйлыкты эсептейт.

Эми биз агентти жана чөйрөнү аныктагандан кийин, анын учурдагы абалын жана айлана-чөйрөнү эске алуу менен агент жасай турган кийинки аракетти аныктоо үчүн колдонула турган эрежелерди да аныкташыбыз керек.

Саясат жана сыйлыктар

Окутууну бекемдөө моделинде, а саясат максаттарына жетүү үчүн агент тарабынан колдонулган стратегияны билдирет. Агенттин саясаты агенттин учурдагы абалын жана анын чөйрөсүн эске алуу менен агент андан ары эмне кылышы керектигин чечүүчү нерсе.

Кайсы саясат оптималдуу экенин көрүү үчүн агент бардык мүмкүн болгон саясаттарга баа бериши керек.

саясатты баалоо

Биздин жөнөкөй мисалда, бош мейкиндикке конуу -1 маанисин кайтарат. Агент алмаз сыйлыгы бар мейкиндикке түшкөндө, алар 10 балл алышат. Бул баалуулуктарды колдонуу менен биз ар кандай саясаттарды салыштырып көрсөк болот. пайдалуу функция U.

Эми жогоруда көрсөтүлгөн эки саясаттын пайдалуулугун салыштырып көрөлү:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Натыйжалар A саясаты сыйлыкты табуу үчүн эң жакшы жол экенин көрсөтүп турат. Ошентип, агент B саясатынын үстүнөн А жолун колдонот.

Чалгындоо жана эксплуатациялоо

Чалгындоо жана эксплуатациялоо маселеси - бул агент чечим кабыл алуу процессинде туш болушу керек болгон дилемма.

Агенттер жаңы жолдорду же варианттарды изилдөөгө көңүл бурушу керекпи же алар билген варианттарды пайдалана бериши керекпи?

Эгерде агент изилдөөнү чечсе, агент үчүн жакшыраак вариантты табуу мүмкүнчүлүгү бар, бирок ал убакытты жана ресурстарды текке кетирүү коркунучу бар. Башка жагынан алганда, эгерде агент өзү билген чечимди колдонууну тандаса, ал жакшыраак вариантты колдон чыгарышы мүмкүн.

практикалык Тиркемелер

Бул жерде кээ бир жолдору бар КТ изилдөөчүлөрү реалдуу дүйнөлүк көйгөйлөрдү чечүү үчүн окутуунун бекемдөө моделдерин колдонгон:

Өзү башкаруучу машиналарды бекемдөө

Күчтүү окутуу коопсуз жана натыйжалуу айдоо жөндөмдүүлүгүн жакшыртуу үчүн өзүн-өзү башкарган унааларга колдонулду. Технология автономдуу унааларга каталарынан сабак алууга жана алардын иштешин оптималдаштыруу үчүн жүрүм-турумун тынымсыз тууралоого мүмкүндүк берет.

өзүн-өзү башкаруу үчүн колдонулган бекемдөө окутуу

Мисалы, Лондондо жайгашкан AI компаниясы Wayve автономдуу айдоо үчүн терең бекемдөөнү үйрөнүү моделин ийгиликтүү колдонду. Экспериментинде алар унаанын айдоочусу кирбей туруп, унаанын канча убакытка чуркап кетишин камсыз кылган сыйлык функциясын колдонушкан.

RL моделдери ошондой эле унааларга тоскоолдуктардан качуу же трафикке кошулуу сыяктуу айлана-чөйрөгө негизделген чечимдерди кабыл алууга жардам берет. Бул моделдер унааны курчап турган татаал чөйрөнү модель түшүнө турган өкүлчүлүктүү мамлекеттик мейкиндикке айландыруунун жолун табышы керек.

Робототехникада окутууну бекемдөө

Окумуштуулар ошондой эле татаал тапшырмаларды үйрөнө алган роботторду иштеп чыгуу үчүн күчөтүлгөн окутууну колдонушат. Бул RL моделдери аркылуу роботтор айлана-чөйрөнү байкап, байкоолорунун негизинде чечим кабыл ала алышат.

Мисалы, эки буттуу роботторго кантип үйрөнүүгө мүмкүнчүлүк берүү үчүн бекемдөөчү окутуу моделдерин колдонуу боюнча изилдөөлөр жүргүзүлдү басуу өз алдынча.

роботту басууга үйрөтүүнү күчөтүү

Изилдөөчүлөр RL робототехника тармагындагы негизги ыкма деп эсептешет. Окутуу процессин күчөтүү робототехникага татаал иш-аракеттерди үйрөнүү үчүн негиз берет.

Оюнда окутууну бекемдөө

RL моделдери видео оюндарды ойноону үйрөнүү үчүн да колдонулган. Агенттерди каталарынан сабак алып, оюндагы көрсөткүчтөрүн тынымсыз жакшыртуу үчүн түзсө болот.

Изилдөөчүлөр буга чейин шахмат, Go жана покер сыяктуу оюндарды ойной турган агенттерди иштеп чыгышкан. 2013тө, Deepmind моделге Atari оюндарын нөлдөн баштап ойноону үйрөнүү үчүн Deep Reinforcement Learning колдонду.

Көптөгөн үстөл оюндарынын жана видео оюндарынын чектелген аракет мейкиндиги жана так аныкталган конкреттүү максаты бар. Бул сапаттар RL моделинин пайдасына иштейт. RL ыкмалары жеңишке жетүү үчүн оптималдуу стратегияларды үйрөнүү үчүн миллиондогон симуляцияланган оюндарды тез кайталай алат.

жыйынтыктоо

Басканды үйрөнүп жатабы же видео оюндарды ойногонду үйрөнүп жатабы, RL моделдери татаал чечимдерди кабыл алууну талап кылган маселелерди чечүү үчүн пайдалуу AI алкактары экени далилденген.

Технология өнүгүп жаткандыктан, изилдөөчүлөр да, иштеп чыгуучулар да моделдин өзүн-өзү үйрөтүү жөндөмдүүлүгүнөн пайдаланган жаңы тиркемелерди таба беришет.

Сиздин оюңузча, билимди бекемдөө кандай практикалык колдонмолорго жардам берет?

Окууну бекемдөө: каталарынан үйрөнгөн AI

Кыймылдырууну үйрөнүү деген эмне?