Сургалтыг бэхжүүлэх: Алдаанаасаа суралцдаг хиймэл оюун ухаан

Гарчиг[Нуух][Үзүүлэх]

Бататгах сургалт гэж юу вэ?
Энгийн жишээ: 4×4 тор+-
- Бодлого ба урамшуулал
- Хайгуул ба ашиглалт
Практик хэрэглээ+-
Дүгнэлт

Таныг роботод хэрхэн алхахыг заах гэж байна гэж төсөөлөөд үз дээ. Хувьцааны үнийг урьдчилан таамаглах, зургийг ангилахыг компьютерт заахаас ялгаатай нь бидэнд роботоо сургахад ашиглаж болох том мэдээллийн багц байхгүй.

Хэдийгээр энэ нь танд аяндаа ирдэг ч алхах нь үнэндээ маш нарийн төвөгтэй үйлдэл юм. Алхам алхах нь ихэвчлэн олон арван булчингуудын хамт ажилладаг. Нэг газраас нөгөө газар руу алхахад ашигладаг хүчин чармайлт, арга техник нь янз бүрийн хүчин зүйлээс хамаардаг, тухайлбал та ямар нэг зүйл авч яваа эсэх, налуу болон бусад төрлийн саад бэрхшээл байгаа эсэхээс хамаарна.

Иймэрхүү хувилбаруудад бид бэхжүүлэх сургалт эсвэл RL гэж нэрлэгддэг аргыг ашиглаж болно. RL-ийн тусламжтайгаар та загвараа шийдэхийг хүсч буй тодорхой зорилгоо тодорхойлж, түүнийг хэрхэн хэрэгжүүлэх талаар загварт аажмаар суралцах боломжийг олгож болно.

Энэ нийтлэлд бид бататгах сургалтын үндсүүд болон бодит ертөнц дэх янз бүрийн асуудалд RL хүрээг хэрхэн ашиглах талаар судлах болно.

Бататгах сургалт гэж юу вэ?

Бататгах сургалт нь тодорхой нэг дэд бүлэгт хамаарна машин суралцах Энэ нь хүссэн зан үйлийг урамшуулах, хүсээгүй зан үйлийг шийтгэх замаар шийдлийг олоход чиглэгддэг.

бататгах сургалтын тогтолцооны диаграмм

Хяналттай сургалтаас ялгаатай нь бататгах сургалтын арга нь тухайн оролтын зөв гарцыг хангах сургалтын өгөгдлийн багцгүй байдаг. Сургалтын өгөгдөл байхгүй тохиолдолд алгоритм нь туршилт, алдааны замаар шийдлийг олох ёстой. Бидний ихэвчлэн гэж нэрлэдэг алгоритм агент-тай харьцаж өөрөө шийдлийг олох ёстой орчин.

Ямар үр дүнд хүрэхийг судлаачид шийддэг шагнал мөн алгоритм нь юу хийх чадвартай. Бүр үйл ажиллагаа авсан алгоритм нь алгоритм хэр сайн ажиллаж байгааг харуулсан санал хүсэлтийг хүлээн авах болно. Сургалтын явцад алгоритм нь тодорхой асуудлыг шийдвэрлэх оновчтой шийдлийг олох болно.

Энгийн жишээ: 4×4 тор

Бататгах сургалтын тусламжтайгаар шийдэж болох асуудлын энгийн жишээг харцгаая.

Бидний орчин бол 4×4 сүлжээтэй гэж бодъё. Манай агентыг хэд хэдэн саадтай хамт талбайн аль нэгэнд санамсаргүй байдлаар байрлуулсан. Сүлжээ нь зайлсхийх ёстой гурван "нүх" саадыг агуулж, төлөөлөгч олох ёстой нэг "алмаз" шагналыг агуулна. Бидний хүрээлэн буй орчны бүрэн тодорхойлолтыг хүрээлэн буй орчин гэж нэрлэдэг төлөв.

Бататгах сургалт нь дуурайлган орчинтой харьцдаг агент дээр тулгуурладаг

Манай RL загварт манай агент саад тотгор учруулахгүй л бол зэргэлдээх талбай руу шилжиж болно. Өгөгдсөн орчин дахь бүх хүчинтэй үйлдлүүдийн багцыг үйл ажиллагааны орон зай. Манай төлөөлөгчийн зорилго бол шагналд хүрэх хамгийн дөт замыг олох явдал юм.

агент нь тухайн төлөвт үйлдлийн орон зай эсвэл хүчинтэй үйлдлийн багцтай байна

Манай агент хамгийн бага алхам шаарддаг алмааз руу хүрэх замыг олохын тулд бэхжүүлэх сургалтын аргыг ашиглах болно. Зөв алхам бүр роботод шагнал өгөх ба буруу алхам бүр роботын шагналыг хасах болно. Загвар нь төлөөлөгч алмаазан дээр хүрсний дараа нийт шагналыг тооцдог.

Одоо бид агент болон орчныг тодорхойлсон тул одоогийн байдал болон хүрээлэн буй орчныг харгалзан төлөөлөгчийн хийх дараагийн үйлдлийг тодорхойлоход ашиглах дүрмийг мөн тодорхойлох ёстой.

Бодлого ба урамшуулал

Бататгах сургалтын загварт a бодлого зорилгодоо хүрэхийн тулд төлөөлөгчийн ашигладаг стратегийг хэлнэ. Агентын бодлого нь агентын одоогийн төлөв байдал болон түүний орчныг харгалзан агент дараа нь юу хийх ёстойг шийддэг зүйл юм.

Агент нь аль бодлого оновчтой болохыг харахын тулд бүх боломжит бодлогыг үнэлэх ёстой.

бодлогыг үнэлэх

Бидний энгийн жишээн дээр хоосон зайд буух нь -1 гэсэн утгыг буцаана. Агент алмаазан шагналтай орон зайд газардах үед тэд 10-ын утгыг хүлээн авах болно. Эдгээр утгыг ашиглан бид өөр өөр бодлогуудыг харьцуулж болно. Хэрэглээний функц U.

Одоо дээр дурдсан хоёр бодлогын ашиг тусыг харьцуулж үзье:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Үр дүн нь А бодлого нь шагналыг олох хамгийн сайн арга гэдгийг харуулж байна. Тиймээс агент нь А замыг Б бодлого дээр ашиглах болно.

Хайгуул ба ашиглалт

Бататгах сургалтын явцад хайгуул ба ашиглалтын солилцооны асуудал нь шийдвэр гаргах явцад төлөөлөгчийн тулгарах ёстой асуудал юм.

Агентууд шинэ зам, сонголтуудыг судлахад анхаарлаа төвлөрүүлэх ёстой юу эсвэл аль хэдийн мэддэг сонголтуудаа үргэлжлүүлэн ашиглах ёстой юу?

Хэрэв агент хайгуул хийхээр шийдсэн бол төлөөлөгч илүү сайн сонголтыг олох боломжтой боловч цаг хугацаа, нөөцийг дэмий үрэх эрсдэлтэй. Нөгөөтэйгүүр, хэрэв агент аль хэдийн мэддэг шийдлээ ашиглахаар шийдсэн бол илүү сайн сонголтыг алдаж магадгүй юм.

Практик хэрэглээ

Энд зарим арга замууд байна AI судлаачид Бодит асуудлуудыг шийдвэрлэхийн тулд бэхжүүлэх сургалтын загваруудыг ашигласан:

Өөрийгөө жолооддог машинд бэхжүүлэх сургалт

Аюулгүй, үр ашигтай жолоодох чадварыг сайжруулахын тулд өөрийгөө жолооддог автомашинд нэмэлт сургалтыг ашигласан. Энэхүү технологи нь автомат жолоодлоготой автомашинуудад алдаанаасаа суралцаж, гүйцэтгэлээ оновчтой болгохын тулд зан төлөвөө байнга тохируулах боломжийг олгодог.

өөрийгөө жолоодоход ашигладаг бататгах сургалт

Тухайлбал, Лондонд төвтэй хиймэл оюун ухааны компани Wayve бие даасан жолоодлогын хувьд гүнзгий бэхжүүлэх сургалтын загварыг амжилттай хэрэгжүүлсэн. Туршилтдаа тэд жолоочийн оролцоогүйгээр тээврийн хэрэгсэл ажиллах хугацааг хамгийн их байлгах урамшууллын функцийг ашигласан.

Мөн RL загварууд нь автомашинд саад бэрхшээлээс зайлсхийх, замын хөдөлгөөнд нэгдэх гэх мэт байгаль орчинд тулгуурлан шийдвэр гаргахад тусалдаг. Эдгээр загварууд нь машиныг тойрсон цогц орчныг тухайн загварт ойлгогдохуйц төлөөлөх төрийн орон зай болгон хувиргах арга замыг олох ёстой.

Робот техник дэх сургалтыг бэхжүүлэх

Судлаачид нарийн төвөгтэй даалгавруудыг сурч чаддаг роботуудыг хөгжүүлэхийн тулд бэхжүүлэх сургалтыг ашиглаж байна. Эдгээр RL загваруудаар дамжуулан роботууд хүрээлэн буй орчноо ажиглаж, ажиглалтдаа үндэслэн шийдвэр гаргах боломжтой.

Жишээлбэл, хоёр хөлт роботуудад хэрхэн суралцах боломжийг олгохын тулд бэхжүүлэх сургалтын загварыг ашиглах талаар судалгаа хийсэн алхаарай өөрийн тухай.

роботыг алхаж сургах бататгах сургалт

Судлаачид RL-ийг робот техникийн салбарын гол арга гэж үздэг. Бататгах сургалт нь робот агентуудад инженерчлэхэд хэцүү байж болох нарийн төвөгтэй үйлдлүүдийг сурах тогтолцоог өгдөг.

Тоглоом дахь сургалтыг бэхжүүлэх

RL загваруудыг мөн видео тоглоом тоглож сурахад ашигласан. Агентууд алдаанаасаа суралцаж, тоглоомын гүйцэтгэлээ байнга сайжруулж болно.

Судлаачид шатар, Go, покер зэрэг тоглоом тоглох боломжтой агентуудыг аль хэдийн бүтээжээ. 2013 онд Deepmind Загвар өмсөгчид Atari тоглоомыг эхнээс нь тоглож сурах боломжийг олгохын тулд Deep Reinforcement Learning-ийг ашигласан.

Олон тооны ширээний тоглоом, видео тоглоомууд хязгаарлагдмал үйл ажиллагааны орон зай, тодорхой тодорхой зорилготой байдаг. Эдгээр шинж чанарууд нь RL загварын давуу тал дээр ажилладаг. RL аргууд нь ялалтад хүрэх оновчтой стратегийг сурахын тулд сая сая загварчилсан тоглоомуудыг хурдан давтах боломжтой.

Дүгнэлт

Хэрхэн алхаж сурах эсвэл видео тоглоом тоглож сурах эсэхээс үл хамааран RL загварууд нь нарийн төвөгтэй шийдвэр гаргах шаардлагатай асуудлуудыг шийдвэрлэхэд хэрэгтэй хиймэл оюун ухааны тогтолцоо болох нь батлагдсан.

Технологи үргэлжлэн хөгжихийн хэрээр судлаачид болон хөгжүүлэгчид загварын бие даан заах чадварыг ашиглах шинэ программуудыг үргэлжлүүлэн олох болно.

Бататгах сургалт нь ямар практик хэрэглээнд тусалж чадна гэж та бодож байна вэ?

Сургалтыг бэхжүүлэх: Алдаанаасаа суралцдаг хиймэл оюун ухаан

Бататгах сургалт гэж юу вэ?