ចូរស្រមៃថាអ្នកកំពុងព្យាយាមបង្រៀនមនុស្សយន្តពីរបៀបដើរ។ មិនដូចការបង្រៀនកុំព្យូទ័រពីរបៀបទស្សន៍ទាយតម្លៃភាគហ៊ុន ឬចាត់ថ្នាក់រូបភាពនោះទេ យើងពិតជាមិនមានសំណុំទិន្នន័យធំដែលយើងអាចប្រើដើម្បីហ្វឹកហាត់មនុស្សយន្តរបស់យើងនោះទេ។
ខណៈពេលដែលវាអាចកើតមានចំពោះអ្នកដោយធម្មជាតិ ការដើរពិតជាសកម្មភាពស្មុគស្មាញណាស់។ ការដើរមួយជំហានជាធម្មតារួមបញ្ចូលសាច់ដុំផ្សេងៗគ្នារាប់សិបដែលធ្វើការជាមួយគ្នា។ ការខិតខំប្រឹងប្រែង និងបច្ចេកទេសដែលប្រើដើម្បីដើរពីកន្លែងមួយទៅកន្លែងមួយក៏អាស្រ័យទៅលើកត្តាជាច្រើន រួមទាំងថាតើអ្នកកំពុងកាន់អ្វីមួយ ឬថាតើមានទំនោរ ឬទម្រង់នៃឧបសគ្គផ្សេងទៀត។
ក្នុងស្ថានភាពបែបនេះ យើងអាចប្រើវិធីសាស្ត្រដែលគេស្គាល់ថាជាការរៀនបន្ថែមឬ RL ។ ជាមួយនឹង RL អ្នកអាចកំណត់គោលដៅជាក់លាក់មួយដែលអ្នកចង់ឱ្យគំរូរបស់អ្នកដោះស្រាយ ហើយបណ្តើរឱ្យគំរូរៀនដោយខ្លួនឯងពីរបៀបធ្វើវា។
នៅក្នុងអត្ថបទនេះ យើងនឹងស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃការរៀនពង្រឹង និងរបៀបដែលយើងអាចអនុវត្តក្របខ័ណ្ឌ RL ទៅនឹងបញ្ហាផ្សេងៗគ្នានៅក្នុងពិភពពិត។
តើការរៀនពង្រឹងគឺជាអ្វី?
ការរៀនពង្រឹង សំដៅលើសំណុំរងជាក់លាក់មួយ។ ការរៀនម៉ាស៊ីន ដែលផ្តោតលើការស្វែងរកដំណោះស្រាយដោយការផ្តល់រង្វាន់ដល់អាកប្បកិរិយាដែលចង់បាន និងការដាក់ទណ្ឌកម្មអាកប្បកិរិយាដែលមិនចង់បាន។
មិនដូចការរៀនដែលមានការត្រួតពិនិត្យទេ វិធីសាស្ត្ររៀនពង្រឹងជាធម្មតាមិនមានសំណុំទិន្នន័យបណ្តុះបណ្តាលដែលផ្តល់លទ្ធផលត្រឹមត្រូវសម្រាប់ការបញ្ចូលដែលបានផ្តល់ឱ្យនោះទេ។ ក្នុងករណីដែលគ្មានទិន្នន័យបណ្តុះបណ្តាល ក្បួនដោះស្រាយត្រូវតែស្វែងរកដំណោះស្រាយតាមរយៈការសាកល្បង និងកំហុស។ ក្បួនដោះស្រាយ ដែលជាធម្មតាយើងសំដៅទៅលើ ភ្នាក់ងារត្រូវតែស្វែងរកដំណោះស្រាយដោយខ្លួនឯងដោយធ្វើអន្តរកម្មជាមួយ បរិស្ថាន.
អ្នកស្រាវជ្រាវសម្រេចចិត្តលើលទ្ធផលជាក់លាក់ណាមួយទៅ ទទួលរង្វាន់ និងអ្វីដែល algorithm មានសមត្ថភាពធ្វើ។ រាល់ សកម្មភាព ក្បួនដោះស្រាយនឹងទទួលនូវទម្រង់នៃមតិកែលម្អមួយចំនួនដែលផ្តល់ពិន្ទុថាតើ algorithm ដំណើរការបានល្អប៉ុណ្ណា។ ក្នុងអំឡុងពេលដំណើរការបណ្តុះបណ្តាល ទីបំផុតក្បួនដោះស្រាយនឹងស្វែងរកដំណោះស្រាយដ៏ល្អប្រសើរ ដើម្បីដោះស្រាយបញ្ហាជាក់លាក់ណាមួយ។
ឧទាហរណ៍សាមញ្ញ៖ ក្រឡាចត្រង្គ 4 × 4
សូមក្រឡេកមើលឧទាហរណ៍ដ៏សាមញ្ញមួយនៃបញ្ហាដែលយើងអាចដោះស្រាយបានជាមួយនឹងការរៀនពង្រឹង។
ឧបមាថាយើងមានក្រឡាចត្រង្គ 4 × 4 ជាបរិស្ថានរបស់យើង។ ភ្នាក់ងាររបស់យើងត្រូវបានដាក់ដោយចៃដន្យនៅក្នុងការ៉េមួយ រួមជាមួយនឹងឧបសគ្គមួយចំនួន។ ក្រឡាចត្រង្គនឹងមានឧបសគ្គ "រណ្តៅ" ចំនួនបីដែលត្រូវតែជៀសវាង និងរង្វាន់ "ពេជ្រ" តែមួយដែលភ្នាក់ងារត្រូវស្វែងរក។ ការពិពណ៌នាពេញលេញនៃបរិស្ថានរបស់យើងត្រូវបានគេស្គាល់ថាជាបរិស្ថាន រដ្ឋ.
នៅក្នុងគំរូ RL ភ្នាក់ងាររបស់យើងអាចផ្លាស់ទីទៅការ៉េដែលនៅជាប់គ្នា ដរាបណាមិនមានឧបសគ្គរារាំងពួកគេ។ សំណុំនៃសកម្មភាពត្រឹមត្រូវទាំងអស់នៅក្នុងបរិយាកាសដែលបានផ្តល់ឱ្យត្រូវបានគេស្គាល់ថាជា កន្លែងធ្វើសកម្មភាព. គោលដៅរបស់ភ្នាក់ងាររបស់យើងគឺស្វែងរកផ្លូវខ្លីបំផុតទៅកាន់រង្វាន់។
ភ្នាក់ងាររបស់យើងនឹងប្រើវិធីសាស្ត្រសិក្សាពង្រឹង ដើម្បីស្វែងរកផ្លូវទៅកាន់ពេជ្រ ដែលទាមទារជំហានតិចបំផុត។ ជំហានត្រឹមត្រូវនីមួយៗនឹងផ្តល់រង្វាន់ដល់មនុស្សយន្ត ហើយជំហានខុសនីមួយៗនឹងដករង្វាន់របស់មនុស្សយន្ត។ គំរូគណនារង្វាន់សរុបនៅពេលដែលភ្នាក់ងារទៅដល់ពេជ្រ។
ឥឡូវនេះ យើងបានកំណត់ភ្នាក់ងារ និងបរិស្ថានហើយ យើងក៏ត្រូវតែកំណត់ច្បាប់ដែលត្រូវប្រើសម្រាប់កំណត់សកម្មភាពបន្ទាប់ដែលភ្នាក់ងារនឹងធ្វើឡើងដោយផ្តល់នូវស្ថានភាពបច្ចុប្បន្ន និងបរិស្ថានរបស់វា។
គោលនយោបាយ និងរង្វាន់
នៅក្នុងគំរូនៃការរៀនពង្រឹង ក គោលនយោបាយ សំដៅលើយុទ្ធសាស្ត្រដែលភ្នាក់ងារប្រើដើម្បីសម្រេចគោលដៅរបស់ពួកគេ។ គោលការណ៍របស់ភ្នាក់ងារគឺជាអ្វីដែលសម្រេចថាតើភ្នាក់ងារគួរធ្វើអ្វីបន្ទាប់ទៀត ដោយផ្អែកលើស្ថានភាពបច្ចុប្បន្នរបស់ភ្នាក់ងារ និងបរិយាកាសរបស់វា។
ភ្នាក់ងារត្រូវតែវាយតម្លៃគោលនយោបាយដែលអាចធ្វើបានទាំងអស់ ដើម្បីមើលថាគោលនយោបាយណាដែលល្អបំផុត។
ក្នុងឧទាហរណ៍សាមញ្ញរបស់យើង ការចុះចតលើចន្លោះទទេនឹងត្រឡប់តម្លៃនៃ -1 ។ នៅពេលដែលភ្នាក់ងារចុះចតនៅលើលំហដែលមានរង្វាន់ពេជ្រ ពួកគេនឹងទទួលបានតម្លៃ 10។ ដោយប្រើតម្លៃទាំងនេះ យើងអាចប្រៀបធៀបគោលការណ៍ផ្សេងគ្នាដោយប្រើ មុខងារឧបករណ៍ប្រើប្រាស់ U.
ឥឡូវនេះ ចូរយើងប្រៀបធៀបអត្ថប្រយោជន៍នៃគោលនយោបាយទាំងពីរដែលបានឃើញខាងលើ៖
U(A) = -1 − 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
លទ្ធផលបង្ហាញថាគោលការណ៍ A គឺជាផ្លូវល្អជាងក្នុងការស្វែងរករង្វាន់។ ដូច្នេះ ភ្នាក់ងារនឹងប្រើផ្លូវ A លើគោលការណ៍ B ។
ការរុករកធៀបនឹងការកេងប្រវ័ញ្ច
បញ្ហាដោះដូរការកេងប្រវ័ញ្ចលើការរុករកក្នុងការពង្រឹងការសិក្សាគឺជាបញ្ហាដែលភ្នាក់ងារត្រូវតែប្រឈមមុខក្នុងអំឡុងពេលដំណើរការសម្រេចចិត្ត។
តើភ្នាក់ងារគួរតែផ្តោតលើការរុករកផ្លូវ ឬជម្រើសថ្មី ឬតើពួកគេគួរតែបន្តទាញយកជម្រើសដែលពួកគេដឹងរួចហើយ?
ប្រសិនបើភ្នាក់ងារជ្រើសរើសដើម្បីរុករក វាមានលទ្ធភាពសម្រាប់ភ្នាក់ងារក្នុងការស្វែងរកជម្រើសប្រសើរជាងនេះ ប៉ុន្តែវាក៏អាចប្រថុយនឹងការខ្ជះខ្ជាយពេលវេលា និងធនធានផងដែរ។ ម៉្យាងវិញទៀត ប្រសិនបើភ្នាក់ងារជ្រើសរើសកេងប្រវ័ញ្ចដំណោះស្រាយដែលខ្លួនដឹងរួចហើយនោះ វាអាចនឹងបាត់បង់ជម្រើសដ៏ល្អ។
កម្មវិធីជាក់ស្តែង
នេះគឺជាវិធីមួយចំនួន អ្នកស្រាវជ្រាវអេអាយ បានអនុវត្តគំរូសិក្សាពង្រឹង ដើម្បីដោះស្រាយបញ្ហាក្នុងពិភពពិត៖
ការពង្រឹងការរៀននៅក្នុងរថយន្តបើកបរដោយខ្លួនឯង។
ការរៀនពង្រឹងត្រូវបានអនុវត្តចំពោះរថយន្តដែលបើកបរដោយខ្លួនឯង ដើម្បីបង្កើនសមត្ថភាពបើកបរប្រកបដោយសុវត្ថិភាព និងប្រសិទ្ធភាព។ បច្ចេកវិទ្យានេះអនុញ្ញាតឱ្យរថយន្តស្វយ័តអាចរៀនពីកំហុសរបស់ពួកគេ និងបន្តកែសម្រួលឥរិយាបថរបស់ពួកគេ ដើម្បីបង្កើនប្រសិទ្ធភាពប្រតិបត្តិការរបស់ពួកគេ។
ឧទាហរណ៍ ក្រុមហ៊ុន AI ដែលមានមូលដ្ឋាននៅទីក្រុងឡុងដ៍ វង្វេងស្មារតី បានអនុវត្តដោយជោគជ័យនូវគំរូសិក្សាពង្រឹងជ្រៅសម្រាប់ការបើកបរស្វ័យភាព។ នៅក្នុងការពិសោធន៍របស់ពួកគេ ពួកគេបានប្រើមុខងារផ្តល់រង្វាន់ដែលបង្កើនរយៈពេលអតិបរមាដែលរថយន្តដំណើរការដោយគ្មានអ្នកបើកបរនៅលើយន្តហោះផ្តល់ការបញ្ចូល។
ម៉ូដែល RL ក៏ជួយរថយន្តធ្វើការសម្រេចចិត្តដោយផ្អែកលើបរិស្ថានផងដែរ ដូចជាការបញ្ចៀសឧបសគ្គ ឬការរួមបញ្ចូលគ្នាក្នុងចរាចរណ៍។ ម៉ូដែលទាំងនេះត្រូវតែស្វែងរកវិធីដើម្បីបំប្លែងបរិយាកាសស្មុគស្មាញជុំវិញរថយន្តទៅជាកន្លែងតំណាងដែលគំរូអាចយល់បាន។
ការពង្រឹងការរៀនផ្នែកមនុស្សយន្ត
អ្នកស្រាវជ្រាវក៏បាននិងកំពុងប្រើប្រាស់ការរៀនពង្រឹង ដើម្បីបង្កើតមនុស្សយន្ត ដែលអាចរៀនកិច្ចការស្មុគស្មាញ។ តាមរយៈគំរូ RL ទាំងនេះ មនុស្សយន្តអាចសង្កេតមើលបរិយាកាសរបស់ពួកគេ និងធ្វើការសម្រេចចិត្តដោយផ្អែកលើការសង្កេតរបស់ពួកគេ។
ជាឧទាហរណ៍ ការស្រាវជ្រាវត្រូវបានធ្វើឡើងលើការប្រើប្រាស់គំរូសិក្សាពង្រឹង ដើម្បីអនុញ្ញាតឱ្យមនុស្សយន្ត bipedal រៀនពីរបៀប ដើរ ដោយខ្លួនពួកគេ។
អ្នកស្រាវជ្រាវចាត់ទុក RL ជាវិធីសាស្ត្រសំខាន់ក្នុងវិស័យមនុស្សយន្ត។ ការរៀនពង្រឹងផ្តល់ឱ្យភ្នាក់ងារមនុស្សយន្តនូវក្របខ័ណ្ឌមួយដើម្បីរៀនពីសកម្មភាពដ៏ស្មុគ្រស្មាញ ដែលប្រហែលជាពិបាកធ្វើវិស្វករ។
ការពង្រឹងការរៀននៅក្នុងហ្គេម
ម៉ូដែល RL ក៏ត្រូវបានគេប្រើដើម្បីរៀនពីរបៀបលេងហ្គេមវីដេអូផងដែរ។ ភ្នាក់ងារអាចត្រូវបានបង្កើតឡើងដើម្បីរៀនពីកំហុសរបស់ពួកគេ និងបន្តកែលម្អការអនុវត្តរបស់ពួកគេនៅក្នុងហ្គេម។
អ្នកស្រាវជ្រាវបានបង្កើតភ្នាក់ងារដែលអាចលេងហ្គេមដូចជា អុក ហ្គោ និងបៀរ។ ក្នុងឆ្នាំ 2013 Deepmind បានប្រើ Deep Reinforcement Learning ដើម្បីអនុញ្ញាតឱ្យគំរូរៀនពីរបៀបលេងហ្គេម Atari ពីដំបូង។
ហ្គេមក្តារ និងហ្គេមវីដេអូជាច្រើនមានទំហំសកម្មភាពមានកំណត់ និងគោលដៅច្បាស់លាស់ដែលបានកំណត់។ លក្ខណៈទាំងនេះដំណើរការទៅនឹងអត្ថប្រយោជន៍របស់ម៉ូដែល RL ។ វិធីសាស្ត្រ RL អាចធ្វើឡើងវិញបានលឿនជាងហ្គេមក្លែងបន្លំរាប់លាន ដើម្បីរៀនពីយុទ្ធសាស្ត្រដ៏ល្អប្រសើរដើម្បីសម្រេចបានជ័យជំនះ។
សន្និដ្ឋាន
មិនថាកំពុងរៀនពីរបៀបដើរ ឬរៀនពីរបៀបលេងហ្គេមវីដេអូ ម៉ូដែល RL ត្រូវបានបង្ហាញថាជាក្របខ័ណ្ឌ AI ដ៏មានប្រយោជន៍សម្រាប់ការដោះស្រាយបញ្ហាដែលទាមទារការសម្រេចចិត្តដ៏ស្មុគស្មាញ។
នៅពេលដែលបច្ចេកវិទ្យាបន្តវិវឌ្ឍ ទាំងអ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍នឹងបន្តស្វែងរកកម្មវិធីថ្មីដែលទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពបង្រៀនដោយខ្លួនឯងរបស់គំរូ។
តើកម្មវិធីអនុវត្តជាក់ស្តែងអ្វីខ្លះដែលអ្នកគិតថាការរៀនពង្រឹងអាចជួយជាមួយ?
សូមផ្ដល់យោបល់