ශක්තිමත් කිරීමේ ඉගෙනීම: එහි වැරදි වලින් ඉගෙන ගන්නා AI

පටුන[සඟවන්න][පෙන්වන්න]

ශක්තිමත් කිරීමේ ඉගෙනීම යනු කුමක්ද?
සරල උදාහරණයක්: 4×4 ජාලකය+-
- ප්රතිපත්ති සහ ත්යාග
- ගවේෂණ එදිරිව සූරාකෑම
ප්රායෝගික යෙදුම්+-
නිගමනය

අපි හිතමු ඔයා රොබෝ කෙනෙක්ට ඇවිදින හැටි කියලා දෙන්න හදනවා කියලා. කොටස් මිල පුරෝකථනය කරන ආකාරය හෝ රූප වර්ගීකරණය කරන ආකාරය පරිගණකයකට ඉගැන්වීම මෙන් නොව, අපගේ රොබෝවරයා පුහුණු කිරීමට භාවිතා කළ හැකි විශාල දත්ත කට්ටලයක් අප සතුව නොමැත.

එය ඔබට ස්වභාවිකවම පැමිණිය හැකි වුවද, ඇවිදීම ඇත්තෙන්ම ඉතා සංකීර්ණ ක්‍රියාවකි. පියවරක් ඇවිදීමේදී සාමාන්‍යයෙන් විවිධ මාංශ පේශි දුසිම් ගණනක් එකට වැඩ කිරීම ඇතුළත් වේ. එක් ස්ථානයක සිට තවත් ස්ථානයකට ගමන් කිරීමට භාවිතා කරන උත්සාහය සහ ශිල්පීය ක්‍රම ද විවිධ සාධක මත රඳා පවතී, ඔබ යමක් රැගෙන යනවාද නැතහොත් නැඹුරුවක් හෝ වෙනත් ආකාරයේ බාධක තිබේද යන්න ඇතුළුව.

මෙවැනි අවස්ථා වලදී, අපට reinforcement learning හෝ RL ලෙස හඳුන්වන ක්‍රමයක් භාවිතා කළ හැක. RL සමඟින්, ඔබට ඔබේ ආකෘතිය විසඳා ගැනීමට අවශ්‍ය නිශ්චිත ඉලක්කයක් නිර්වචනය කළ හැකි අතර එය ඉටු කරන ආකාරය ක්‍රමයෙන් ආකෘතියට ඉගෙන ගැනීමට ඉඩ දෙන්න.

මෙම ලිපියෙන්, අපි ශක්තිමත් කිරීමේ ඉගෙනීමේ මූලික කරුණු සහ සැබෑ ලෝකයේ විවිධ ගැටළු සඳහා RL රාමුව යෙදිය හැකි ආකාරය ගවේෂණය කරන්නෙමු.

ශක්තිමත් කිරීමේ ඉගෙනීම යනු කුමක්ද?

ශක්තිමත් කිරීමේ ඉගෙනීම යනු විශේෂිත උප කුලකයකට යොමු වේ යන්ත්ර ඉගෙනීම අපේක්ෂිත හැසිරීම් වලට විපාක දීමෙන් සහ අනවශ්‍ය හැසිරීම් වලට දඬුවම් කිරීමෙන් විසඳුම් සෙවීම කෙරෙහි අවධානය යොමු කරයි.

ශක්තිමත් කිරීමේ ඉගෙනුම් රාමුවේ රූප සටහන

අධීක්ෂණ ඉගෙනීම මෙන් නොව, ශක්තිමත් කිරීමේ ඉගෙනුම් ක්‍රමයට සාමාන්‍යයෙන් ලබා දී ඇති ආදානයක් සඳහා නිවැරදි ප්‍රතිදානය සපයන පුහුණු දත්ත කට්ටලයක් නොමැත. පුහුණු දත්ත නොමැති විට, ඇල්ගොරිතම අත්හදා බැලීම් සහ දෝෂය හරහා විසඳුම සොයාගත යුතුය. අපි සාමාන්‍යයෙන් හඳුන්වන ඇල්ගොරිතම නියෝජිතයා, සමඟ අන්තර් ක්‍රියා කිරීමෙන් විසඳුම තනිවම සොයාගත යුතුය පරිසරය.

පර්යේෂකයන් නිශ්චිත ප්රතිඵල මොනවාද යන්න තීරණය කරයි තෑග්ගක් සහ ඇල්ගොරිතමයට කළ හැකි දේ. සෑම කටයුතු ඇල්ගොරිතමයට යම් ආකාරයක ප්‍රතිපෝෂණ ලැබෙනු ඇති අතර එමඟින් ඇල්ගොරිතම කෙතරම් හොඳින් ක්‍රියා කරයිද යන්න තීරණය කරයි. පුහුණු ක්රියාවලියේදී, ඇල්ගොරිතම අවසානයේ යම් ගැටළුවක් විසඳීම සඳහා ප්රශස්ත විසඳුමක් සොයා ගනු ඇත.

සරල උදාහරණයක්: 4×4 ජාලකය

ශක්තිමත් කිරීමේ ඉගෙනීම සමඟ අපට විසඳිය හැකි ගැටළුවක් පිළිබඳ සරල උදාහරණයක් බලමු.

අපේ පරිසරය ලෙස 4×4 ජාලයක් ඇතැයි සිතමු. අපගේ නියෝජිතයා බාධා කිහිපයක් සමඟින් එක් චතුරශ්‍රයක අහඹු ලෙස තබා ඇත. ජාලකයේ වළක්වා ගත යුතු "වළ" බාධක තුනක් සහ නියෝජිතයා විසින් සොයා ගත යුතු තනි "දියමන්ති" ත්‍යාගයක් අඩංගු විය යුතුය. අපගේ පරිසරය පිළිබඳ සම්පූර්ණ විස්තරය පරිසරය ලෙස හැඳින්වේ රජයේ.

ශක්තිමත් කිරීමේ ඉගෙනීම අනුකරණය කරන ලද පරිසරයක් සමඟ අන්තර්ක්‍රියා කරන නියෝජිතයෙකු මත රඳා පවතී

අපගේ RL ආකෘතිය තුළ, අපගේ නියෝජිතයාට ඒවා අවහිර වන බාධා නොමැති තාක් ඕනෑම යාබද චතුරශ්‍රයකට යාමට හැකිය. දී ඇති පරිසරයක සියලුම වලංගු ක්‍රියා සමූහය ලෙස හැඳින්වේ ක්රියාකාරී අවකාශය. අපගේ නියෝජිතයාගේ ඉලක්කය වන්නේ විපාකය සඳහා කෙටිම මාර්ගය සොයා ගැනීමයි.

නියෝජිතයාට ක්‍රියා අවකාශයක් හෝ දී ඇති තත්වයක වලංගු ක්‍රියා සමූහයක් ඇත

අවම පියවර ප්‍රමාණයක් අවශ්‍ය දියමන්ති සඳහා මාර්ගය සොයා ගැනීමට අපගේ නියෝජිතයා ශක්තිමත් කිරීමේ ඉගෙනුම් ක්‍රමය භාවිතා කරනු ඇත. සෑම නිවැරදි පියවරක්ම රොබෝවරයාට ත්‍යාගයක් ලබා දෙන අතර සෑම වැරදි පියවරක්ම රොබෝවරයාගේ ත්‍යාගය අඩු කරයි. නියෝජිතයා දියමන්ති වෙත ළඟා වූ පසු ආකෘතිය මුළු ත්‍යාගය ගණනය කරයි.

දැන් අපි නියෝජිතයා සහ පරිසරය නිර්වචනය කර ඇති බැවින්, එහි වත්මන් තත්ත්වය සහ පරිසරය අනුව නියෝජිතයා ගන්නා මීළඟ ක්‍රියාමාර්ගය තීරණය කිරීම සඳහා භාවිතා කළ යුතු නීති ද නිර්වචනය කළ යුතුය.

ප්රතිපත්ති සහ ත්යාග

ශක්තිමත් කිරීමේ ඉගෙනුම් ආකෘතියක් තුළ, a ප්රතිපත්ති නියෝජිතයෙකු තම අරමුණු ඉටු කර ගැනීමට භාවිතා කරන උපාය මාර්ගයට යොමු කරයි. නියෝජිතයාගේ ප්‍රතිපත්තිය වන්නේ නියෝජිතයාගේ වත්මන් තත්ත්වය සහ එහි පරිසරය අනුව නියෝජිතයා මීළඟට කුමක් කළ යුතුද යන්න තීරණය කරයි.

කුමන ප්‍රතිපත්තිය ප්‍රශස්ත දැයි බැලීමට නියෝජිතයා හැකි සියලු ප්‍රතිපත්ති ඇගයීමට ලක් කළ යුතුය.

ප්රතිපත්ති ඇගයීම

අපගේ සරල උදාහරණයේ දී, හිස් ඉඩක් මත ගොඩබෑම -1 අගයක් ලබා දෙනු ඇත. නියෝජිතයා දියමන්ති ත්‍යාගය සහිත අවකාශයකට ගොඩ බැස්ස විට, ඔවුන්ට 10 ක අගයක් ලැබෙනු ඇත. මෙම අගයන් භාවිතා කරමින්, අපට විවිධ ප්‍රතිපත්ති සංසන්දනය කළ හැක උපයෝගිතා කාර්යය U.

දැන් ඉහත දැක්වෙන ප්‍රතිපත්ති දෙකෙහි උපයෝගීතාව සංසන්දනය කරමු:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

ප්‍රතිඵලවලින් පෙන්නුම් කරන්නේ A ප්‍රතිපත්තිය විපාකය සොයා ගැනීමට වඩා හොඳ මාර්ගය බවයි. මේ අනුව, නියෝජිතයා ප්‍රතිපත්ති B හරහා A මාර්ගය භාවිත කරයි.

ගවේෂණ එදිරිව සූරාකෑම

ශක්තිමත් කිරීමේ ඉගෙනීමේදී ගවේෂණ එදිරිව සූරාකෑමේ වෙළඳාම් කිරීමේ ගැටලුව තීරණ ක්‍රියාවලියේදී නියෝජිතයෙකු මුහුණ දිය යුතු උභතෝකෝටිකයකි.

නියෝජිතයන් නව මාර්ග හෝ විකල්ප ගවේෂණය කිරීමට අවධානය යොමු කළ යුතුද නැතහොත් ඔවුන් දැනටමත් දන්නා විකල්ප දිගටම සූරාකෑම කළ යුතුද?

නියෝජිතයා ගවේෂණය කිරීමට තෝරා ගන්නේ නම්, නියෝජිතයාට වඩා හොඳ විකල්පයක් සොයා ගැනීමට හැකියාවක් ඇත, නමුත් එය කාලය හා සම්පත් නාස්ති කිරීමේ අවදානමක් ද ඇති කළ හැකිය. අනෙක් අතට, නියෝජිතයා දැනටමත් දන්නා විසඳුම ගසාකෑමට තෝරා ගන්නේ නම්, එය වඩා හොඳ විකල්පයක් මග හැරිය හැක.

ප්රායෝගික යෙදුම්

මෙන්න ක්රම කිහිපයක් AI පර්යේෂකයන් සැබෑ ලෝක ගැටලු විසඳීම සඳහා ශක්තිමත් කිරීමේ ඉගෙනුම් ආකෘති යොදා ගෙන ඇත:

ස්වයං-රියදුරු කාර් වල ශක්තිමත් කිරීමේ ඉගෙනීම

ආරක්ෂිතව සහ කාර්යක්ෂමව රිය පැදවීමේ හැකියාව වැඩිදියුණු කිරීම සඳහා ස්වයං-රියදුරු මෝටර් රථ සඳහා ශක්තිමත් කිරීමේ ඉගෙනීම යොදවා ඇත. තාක්‍ෂණය ස්වයංක්‍රීය මෝටර් රථවලට ඔවුන්ගේ වැරදිවලින් ඉගෙන ගැනීමට සහ ඔවුන්ගේ ක්‍රියාකාරිත්වය ප්‍රශස්ත කිරීම සඳහා ඔවුන්ගේ හැසිරීම අඛණ්ඩව සකස් කිරීමට හැකියාව ලබා දෙයි.

ස්වයං-රිය පැදවීම සඳහා භාවිතා කරන ශක්තිමත් කිරීමේ ඉගෙනීම

උදාහරණයක් ලෙස, ලන්ඩන් පදනම් කරගත් AI සමාගම මාර්ගය ස්වයංක්‍රීය රිය පැදවීම සඳහා ගැඹුරු ශක්තිමත් කිරීමේ ඉගෙනුම් ආකෘතියක් සාර්ථකව යොදවා ඇත. ඔවුන්ගේ අත්හදා බැලීමේ දී, ඔවුන් ආදානය ලබා දීමෙන් තොරව වාහනය ධාවනය වන කාලය උපරිම කරන විපාක ශ්‍රිතයක් භාවිතා කළහ.

RL මාදිලි මෝටර් රථවලට බාධක මඟහැරීම හෝ ගමනාගමනයට ඒකාබද්ධ වීම වැනි පරිසරය මත පදනම්ව තීරණ ගැනීමටද උපකාර කරයි. මෙම මාදිලි මෝටර් රථයක් වටා ඇති සංකීර්ණ පරිසරය ආකෘතියට තේරුම් ගත හැකි නියෝජිත රාජ්ය අවකාශයක් බවට පරිවර්තනය කිරීමට ක්රමයක් සොයාගත යුතුය.

රොබෝ තාක්ෂණයේ ශක්තිමත් කිරීමේ ඉගෙනීම

පර්යේෂකයන් සංකීර්ණ කාර්යයන් ඉගෙන ගත හැකි රොබෝවරුන් සංවර්ධනය කිරීම සඳහා ශක්තිමත් කිරීමේ ඉගෙනීම භාවිතා කර ඇත. මෙම RL ආකෘති හරහා, රොබෝවරුන්ට ඔවුන්ගේ පරිසරය නිරීක්ෂණය කිරීමට සහ ඔවුන්ගේ නිරීක්ෂණ මත පදනම්ව තීරණ ගැනීමට හැකි වේ.

නිදසුනක් වශයෙන්, බයිපෙඩල් රොබෝවරුන්ට ඉගෙන ගැනීමට හැකි වන පරිදි ශක්තිමත් කිරීමේ ඉගෙනුම් ආකෘති භාවිතා කිරීම පිළිබඳ පර්යේෂණ සිදු කර ඇත. ඇවිදින්න තනිවම.

ශක්තිමත් කිරීමේ ඉගෙනීම රොබෝවෙකුට ඇවිදීමට ඉගැන්වීම

පර්යේෂකයන් RL සලකන්නේ රොබෝ තාක්ෂණයේ ප්‍රධාන ක්‍රමයක් ලෙසයි. ශක්තිමත් කිරීමේ ඉගෙනීම රොබෝ නියෝජිතයින්ට ඉංජිනේරු කිරීමට අපහසු විය හැකි නවීන ක්‍රියා ඉගෙන ගැනීමට රාමුවක් ලබා දෙයි.

ක්‍රීඩා වල ශක්තිමත් කිරීමේ ඉගෙනීම

වීඩියෝ ක්‍රීඩා කරන ආකාරය ඉගෙන ගැනීමට RL ආකෘති ද භාවිතා කර ඇත. ඔවුන්ගේ වැරදි වලින් ඉගෙන ගැනීමට සහ ක්‍රීඩාවේ ඔවුන්ගේ කාර්ය සාධනය අඛණ්ඩව වැඩිදියුණු කිරීමට නියෝජිතයින්ට පිහිටුවිය හැකිය.

පර්යේෂකයන් දැනටමත් චෙස්, ගෝ සහ පෝකර් වැනි ක්‍රීඩා කළ හැකි නියෝජිතයන් නිපදවා ඇත. 2013 දී, Deepmind ආකෘතියකට මුල සිටම Atari ක්‍රීඩා කරන ආකාරය ඉගෙන ගැනීමට Deep Reinforcement Learning භාවිතා කරන ලදී.

බොහෝ පුවරු ක්‍රීඩා සහ වීඩියෝ ක්‍රීඩා සීමිත ක්‍රියාකාරී ඉඩක් සහ හොඳින් අර්ථ දක්වා ඇති සංයුක්ත ඉලක්කයක් ඇත. මෙම ලක්ෂණ RL ආකෘතියේ වාසිය සඳහා ක්රියා කරයි. ජයග්‍රහණය ලබා ගැනීම සඳහා ප්‍රශස්ත උපාය මාර්ග ඉගෙන ගැනීම සඳහා RL ක්‍රම මගින් මිලියන ගණනක සමාකරණ ක්‍රීඩා ඉක්මනින් පුනරාවර්තනය කළ හැකිය.

නිගමනය

ඇවිදීමට ඉගෙන ගැනීම හෝ වීඩියෝ ක්‍රීඩා කරන ආකාරය ඉගෙන ගැනීම හෝ වේවා, RL මාදිලි සංකීර්ණ තීරණ ගැනීම අවශ්‍ය වන ගැටළු විසඳීම සඳහා ප්‍රයෝජනවත් AI රාමු බව ඔප්පු වී ඇත.

තාක්‍ෂණය අඛණ්ඩව විකාශනය වන විට, පර්යේෂකයන් සහ සංවර්ධකයින් යන දෙදෙනාම ආකෘතියේ ස්වයං ඉගැන්වීමේ හැකියාවෙන් ප්‍රයෝජන ගන්නා නව යෙදුම් සොයා ගනු ඇත.

ශක්තිමත් කිරීමේ ඉගෙනීම උපකාර විය හැකි යැයි ඔබ සිතන්නේ කුමන ප්‍රායෝගික යෙදුම්ද?

ශක්තිමත් කිරීමේ ඉගෙනීම: එහි වැරදි වලින් ඉගෙන ගන්නා AI

ශක්තිමත් කිරීමේ ඉගෙනීම යනු කුමක්ද?