റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ്: AI അതിന്റെ തെറ്റുകളിൽ നിന്ന് പഠിക്കുന്നു

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

എന്താണ് ശക്തിപ്പെടുത്തൽ പഠനം?
ഒരു ലളിതമായ ഉദാഹരണം: 4×4 ഗ്രിഡ്+-
- നയങ്ങളും റിവാർഡുകളും
- പര്യവേക്ഷണം വേഴ്സസ് ചൂഷണം
പ്രായോഗിക അപ്ലിക്കേഷനുകൾ+-
തീരുമാനം

നിങ്ങൾ ഒരു റോബോട്ടിനെ എങ്ങനെ നടക്കണമെന്ന് പഠിപ്പിക്കാൻ ശ്രമിക്കുകയാണെന്ന് സങ്കൽപ്പിക്കുക. സ്റ്റോക്ക് വിലകൾ പ്രവചിക്കാനോ ഇമേജുകൾ തരംതിരിക്കാനോ കമ്പ്യൂട്ടറിനെ പഠിപ്പിക്കുന്നത് പോലെ, നമ്മുടെ റോബോട്ടിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു വലിയ ഡാറ്റാസെറ്റ് ഞങ്ങളുടെ പക്കലില്ല.

ഇത് നിങ്ങൾക്ക് സ്വാഭാവികമായി വരാമെങ്കിലും, നടത്തം യഥാർത്ഥത്തിൽ വളരെ സങ്കീർണ്ണമായ ഒരു പ്രവർത്തനമാണ്. ഒരു ചുവട് നടക്കുമ്പോൾ സാധാരണയായി ഡസൻ കണക്കിന് വ്യത്യസ്ത പേശികൾ ഒരുമിച്ച് പ്രവർത്തിക്കുന്നു. ഒരിടത്ത് നിന്ന് മറ്റൊരിടത്തേക്ക് നടക്കാൻ ഉപയോഗിക്കുന്ന പ്രയത്നവും സാങ്കേതിക വിദ്യകളും, നിങ്ങൾ എന്തെങ്കിലും ചുമക്കുന്നുണ്ടോ അല്ലെങ്കിൽ ഒരു ചായ്‌വോ മറ്റ് തടസ്സങ്ങളോ ഉണ്ടോ എന്നതുൾപ്പെടെ വിവിധ ഘടകങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു.

ഇതുപോലുള്ള സാഹചര്യങ്ങളിൽ, നമുക്ക് റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് അല്ലെങ്കിൽ RL എന്നറിയപ്പെടുന്ന ഒരു രീതി ഉപയോഗിക്കാം. RL ഉപയോഗിച്ച്, നിങ്ങളുടെ മോഡൽ പരിഹരിക്കാൻ ആഗ്രഹിക്കുന്ന ഒരു നിർദ്ദിഷ്ട ലക്ഷ്യം നിങ്ങൾക്ക് നിർവചിക്കാം, അത് എങ്ങനെ നിറവേറ്റാമെന്ന് ക്രമേണ മോഡലിനെ പഠിക്കാൻ അനുവദിക്കുക.

ഈ ലേഖനത്തിൽ, റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗിന്റെ അടിസ്ഥാനകാര്യങ്ങളും യഥാർത്ഥ ലോകത്തിലെ വിവിധ പ്രശ്‌നങ്ങളിൽ RL ചട്ടക്കൂട് എങ്ങനെ പ്രയോഗിക്കാമെന്നും ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യും.

എന്താണ് ശക്തിപ്പെടുത്തൽ പഠനം?

റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് എന്നത് ഒരു പ്രത്യേക ഉപവിഭാഗത്തെ സൂചിപ്പിക്കുന്നു മെഷീൻ ലേണിംഗ് ആവശ്യമുള്ള പെരുമാറ്റങ്ങൾക്ക് പ്രതിഫലം നൽകുന്നതിലൂടെയും അഭികാമ്യമല്ലാത്ത പെരുമാറ്റങ്ങളെ ശിക്ഷിക്കുന്നതിലൂടെയും പരിഹാരം കണ്ടെത്തുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

ശക്തിപ്പെടുത്തൽ പഠന ചട്ടക്കൂടിന്റെ ഡയഗ്രം

സൂപ്പർവൈസുചെയ്‌ത പഠനത്തിൽ നിന്ന് വ്യത്യസ്തമായി, റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് രീതിക്ക് ഒരു നിശ്ചിത ഇൻപുട്ടിന് ശരിയായ ഔട്ട്‌പുട്ട് നൽകുന്ന ഒരു പരിശീലന ഡാറ്റാസെറ്റ് സാധാരണയായി ഉണ്ടാകില്ല. പരിശീലന ഡാറ്റയുടെ അഭാവത്തിൽ, അൽഗോരിതം പരീക്ഷണത്തിലൂടെയും പിശകിലൂടെയും പരിഹാരം കണ്ടെത്തണം. ഞങ്ങൾ സാധാരണയായി ഒരു എന്ന് വിളിക്കുന്ന അൽഗോരിതം ഏജന്റ്, എന്നിവയുമായി ഇടപഴകിക്കൊണ്ട് സ്വയം പരിഹാരം കണ്ടെത്തണം പരിസ്ഥിതി.

പ്രത്യേക ഫലങ്ങൾ എന്തായിരിക്കണമെന്ന് ഗവേഷകർ തീരുമാനിക്കുന്നു പ്രതിഫലം അൽഗോരിതം ചെയ്യാൻ കഴിയുന്നതും. ഓരോ നടപടി അൽഗോരിതം എടുക്കുന്ന ചില ഫീഡ്‌ബാക്ക് സ്വീകരിക്കും, അത് അൽഗോരിതം എത്ര നന്നായി പ്രവർത്തിക്കുന്നു എന്ന് സ്‌കോർ ചെയ്യും. പരിശീലന പ്രക്രിയയിൽ, അൽഗോരിതം ഒടുവിൽ ഒരു നിശ്ചിത പ്രശ്നം പരിഹരിക്കുന്നതിനുള്ള ഒപ്റ്റിമൽ പരിഹാരം കണ്ടെത്തും.

ഒരു ലളിതമായ ഉദാഹരണം: 4×4 ഗ്രിഡ്

റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് ഉപയോഗിച്ച് നമുക്ക് പരിഹരിക്കാൻ കഴിയുന്ന ഒരു പ്രശ്നത്തിന്റെ ലളിതമായ ഉദാഹരണം നോക്കാം.

നമ്മുടെ പരിസ്ഥിതിയായി 4×4 ഗ്രിഡ് ഉണ്ടെന്ന് കരുതുക. ഞങ്ങളുടെ ഏജന്റ് ക്രമരഹിതമായി സ്ക്വയറുകളിൽ ഒന്നിൽ കുറച്ച് തടസ്സങ്ങൾക്കൊപ്പം സ്ഥാപിച്ചിരിക്കുന്നു. ഗ്രിഡിൽ ഒഴിവാക്കേണ്ട മൂന്ന് "കുഴി" തടസ്സങ്ങളും ഏജന്റ് കണ്ടെത്തേണ്ട ഒരു "ഡയമണ്ട്" റിവാർഡും അടങ്ങിയിരിക്കണം. നമ്മുടെ പരിസ്ഥിതിയുടെ പൂർണ്ണമായ വിവരണം പരിസ്ഥിതിയുടെ എന്നറിയപ്പെടുന്നു സംസ്ഥാനം.

അനുകരണീയമായ പരിതസ്ഥിതിയുമായി ഇടപഴകുന്ന ഒരു ഏജന്റിനെയാണ് ശക്തിപ്പെടുത്തൽ പഠനം ആശ്രയിക്കുന്നത്

ഞങ്ങളുടെ RL മോഡലിൽ, ഞങ്ങളുടെ ഏജന്റിനെ തടയുന്ന തടസ്സങ്ങളൊന്നും ഇല്ലാത്തിടത്തോളം, അടുത്തുള്ള ഏത് ചതുരത്തിലേക്കും നീങ്ങാൻ കഴിയും. ഒരു നിശ്ചിത പരിതസ്ഥിതിയിലെ എല്ലാ സാധുവായ പ്രവർത്തനങ്ങളുടെയും സെറ്റ് അറിയപ്പെടുന്നു പ്രവർത്തന സ്ഥലം. പ്രതിഫലത്തിലേക്കുള്ള ഏറ്റവും ചെറിയ വഴി കണ്ടെത്തുക എന്നതാണ് ഞങ്ങളുടെ ഏജന്റിന്റെ ലക്ഷ്യം.

ഏജന്റിന് ഒരു പ്രവർത്തന ഇടം അല്ലെങ്കിൽ ഒരു നിശ്ചിത സംസ്ഥാനത്ത് സാധുവായ പ്രവർത്തനങ്ങളുടെ കൂട്ടം ഉണ്ട്

ഏറ്റവും കുറഞ്ഞ ഘട്ടങ്ങൾ ആവശ്യമായ വജ്രത്തിലേക്കുള്ള വഴി കണ്ടെത്താൻ ഞങ്ങളുടെ ഏജന്റ് റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് രീതി ഉപയോഗിക്കും. ഓരോ ശരിയായ ചുവടും റോബോട്ടിന് പ്രതിഫലം നൽകും, ഓരോ തെറ്റായ ചുവടും റോബോട്ടിന്റെ പ്രതിഫലം കുറയ്ക്കും. ഏജന്റ് ഡയമണ്ടിൽ എത്തിക്കഴിഞ്ഞാൽ മോഡൽ മൊത്തം റിവാർഡ് കണക്കാക്കുന്നു.

ഇപ്പോൾ ഞങ്ങൾ ഏജന്റിനെയും പരിസ്ഥിതിയെയും നിർവചിച്ചിരിക്കുന്നു, അതിന്റെ നിലവിലെ അവസ്ഥയും പരിസ്ഥിതിയും കണക്കിലെടുത്ത് ഏജന്റ് സ്വീകരിക്കുന്ന അടുത്ത പ്രവർത്തനം നിർണ്ണയിക്കാൻ ഉപയോഗിക്കേണ്ട നിയമങ്ങളും ഞങ്ങൾ നിർവചിക്കേണ്ടതുണ്ട്.

നയങ്ങളും റിവാർഡുകളും

ഒരു ശക്തിപ്പെടുത്തൽ പഠന മാതൃകയിൽ, എ നയം ഒരു ഏജന്റ് അവരുടെ ലക്ഷ്യങ്ങൾ നിറവേറ്റാൻ ഉപയോഗിക്കുന്ന തന്ത്രത്തെ സൂചിപ്പിക്കുന്നു. ഏജന്റിന്റെ നിലവിലെ അവസ്ഥയും പരിസ്ഥിതിയും കണക്കിലെടുത്ത് ഏജന്റ് അടുത്തതായി എന്തുചെയ്യണമെന്ന് തീരുമാനിക്കുന്നത് ഏജന്റിന്റെ നയമാണ്.

ഏത് പോളിസിയാണ് ഒപ്റ്റിമൽ എന്ന് കാണാൻ സാധ്യമായ എല്ലാ പോളിസികളും ഏജന്റ് വിലയിരുത്തണം.

നയങ്ങൾ വിലയിരുത്തുന്നു

ഞങ്ങളുടെ ലളിതമായ ഉദാഹരണത്തിൽ, ശൂന്യമായ സ്ഥലത്ത് ഇറങ്ങുന്നത് -1 മൂല്യം നൽകും. ഡയമണ്ട് റിവാർഡുള്ള ഒരു സ്‌പെയ്‌സിൽ ഏജന്റ് ഇറങ്ങുമ്പോൾ, അവർക്ക് 10 മൂല്യം ലഭിക്കും. ഈ മൂല്യങ്ങൾ ഉപയോഗിച്ച്, നമുക്ക് വ്യത്യസ്ത പോളിസികൾ താരതമ്യം ചെയ്യാം യൂട്ടിലിറ്റി ഫംഗ്ഷൻ U.

മുകളിൽ കാണുന്ന രണ്ട് നയങ്ങളുടെ പ്രയോജനം നമുക്ക് താരതമ്യം ചെയ്യാം:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

പോളിസി എയാണ് പ്രതിഫലം കണ്ടെത്തുന്നതിനുള്ള മികച്ച പാതയെന്ന് ഫലങ്ങൾ കാണിക്കുന്നു. അതിനാൽ, ഏജന്റ്, പോളിസി ബിക്ക് മുകളിൽ പാത്ത് എ ഉപയോഗിക്കും.

പര്യവേക്ഷണം വേഴ്സസ് ചൂഷണം

ദൃഢീകരണ പഠനത്തിലെ പര്യവേക്ഷണവും ചൂഷണവും ട്രേഡ്-ഓഫ് പ്രശ്‌നം തീരുമാന പ്രക്രിയയിൽ ഒരു ഏജന്റ് അഭിമുഖീകരിക്കേണ്ട ഒരു പ്രതിസന്ധിയാണ്.

ഏജന്റുമാർ പുതിയ പാതകളോ ഓപ്ഷനുകളോ പര്യവേക്ഷണം ചെയ്യുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കണോ അതോ അവർക്ക് ഇതിനകം അറിയാവുന്ന ഓപ്ഷനുകൾ ചൂഷണം ചെയ്യുന്നത് തുടരണോ?

ഏജന്റ് പര്യവേക്ഷണം ചെയ്യാൻ തിരഞ്ഞെടുക്കുകയാണെങ്കിൽ, ഏജന്റിന് ഒരു മികച്ച ഓപ്ഷൻ കണ്ടെത്താനുള്ള സാധ്യതയുണ്ട്, എന്നാൽ ഇത് സമയവും വിഭവങ്ങളും പാഴാക്കാൻ സാധ്യതയുണ്ട്. മറുവശത്ത്, ഏജന്റ് ഇതിനകം അറിയാവുന്ന പരിഹാരം ചൂഷണം ചെയ്യാൻ തിരഞ്ഞെടുക്കുകയാണെങ്കിൽ, അത് ഒരു മികച്ച ഓപ്ഷൻ നഷ്‌ടപ്പെട്ടേക്കാം.

പ്രായോഗിക അപ്ലിക്കേഷനുകൾ

ചില വഴികൾ ഇതാ AI ഗവേഷകർ യഥാർത്ഥ ലോക പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് മോഡലുകൾ പ്രയോഗിച്ചു:

സ്വയം ഡ്രൈവിംഗ് കാറുകളിൽ ശക്തിപ്പെടുത്തൽ പഠനം

സുരക്ഷിതമായും കാര്യക്ഷമമായും ഡ്രൈവ് ചെയ്യാനുള്ള അവരുടെ കഴിവ് മെച്ചപ്പെടുത്തുന്നതിനായി സ്വയം ഡ്രൈവിംഗ് കാറുകൾക്ക് റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് പ്രയോഗിച്ചു. സാങ്കേതികവിദ്യ സ്വയംഭരണ കാറുകളെ അവരുടെ തെറ്റുകളിൽ നിന്ന് പഠിക്കാനും അവയുടെ പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിനായി അവരുടെ പെരുമാറ്റം നിരന്തരം ക്രമീകരിക്കാനും പ്രാപ്തമാക്കുന്നു.

സ്വയം ഡ്രൈവിംഗിനായി ഉപയോഗിക്കുന്ന ബലപ്പെടുത്തൽ പഠനം

ഉദാഹരണത്തിന്, ലണ്ടൻ ആസ്ഥാനമായുള്ള AI കമ്പനി വഴി ഓട്ടോണമസ് ഡ്രൈവിംഗിനായി ഒരു ആഴത്തിലുള്ള ബലപ്പെടുത്തൽ പഠന മാതൃക വിജയകരമായി പ്രയോഗിച്ചു. അവരുടെ പരീക്ഷണത്തിൽ, ഇൻപുട്ട് നൽകാതെ ഡ്രൈവർ ഓൺബോർഡ് ഇല്ലാതെ വാഹനം ഓടുന്ന സമയം പരമാവധി വർദ്ധിപ്പിക്കുന്ന ഒരു റിവാർഡ് ഫംഗ്ഷൻ അവർ ഉപയോഗിച്ചു.

തടസ്സങ്ങൾ ഒഴിവാക്കുകയോ ട്രാഫിക്കിൽ ലയിക്കുകയോ പോലുള്ള പരിസ്ഥിതിയെ അടിസ്ഥാനമാക്കിയുള്ള തീരുമാനങ്ങൾ എടുക്കാനും RL മോഡലുകൾ കാറുകളെ സഹായിക്കുന്നു. ഈ മോഡലുകൾ കാറിന് ചുറ്റുമുള്ള സങ്കീർണ്ണമായ അന്തരീക്ഷത്തെ മോഡലിന് മനസ്സിലാക്കാൻ കഴിയുന്ന ഒരു പ്രാതിനിധ്യ സ്‌റ്റേറ്റ് സ്‌പെയ്‌സാക്കി മാറ്റാനുള്ള വഴി കണ്ടെത്തണം.

റോബോട്ടിക്സിൽ റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ്

സങ്കീർണ്ണമായ ജോലികൾ പഠിക്കാൻ കഴിയുന്ന റോബോട്ടുകളെ വികസിപ്പിക്കാൻ ഗവേഷകർ റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് ഉപയോഗിക്കുന്നു. ഈ RL മോഡലുകൾ വഴി, റോബോട്ടുകൾക്ക് അവരുടെ പരിസ്ഥിതി നിരീക്ഷിക്കാനും അവരുടെ നിരീക്ഷണങ്ങളെ അടിസ്ഥാനമാക്കി തീരുമാനങ്ങൾ എടുക്കാനും കഴിയും.

ഉദാഹരണത്തിന്, ബൈപെഡൽ റോബോട്ടുകളെ എങ്ങനെ ചെയ്യണമെന്ന് പഠിക്കാൻ അനുവദിക്കുന്നതിന് റൈൻഫോഴ്സ്മെന്റ് ലേണിംഗ് മോഡലുകൾ ഉപയോഗിക്കുന്നതിനെക്കുറിച്ച് ഗവേഷണം നടത്തിയിട്ടുണ്ട്. നടക്കുക അവര് സ്വന്തമായി.

ഒരു റോബോട്ടിനെ നടക്കാൻ പഠിപ്പിക്കുന്ന ബലപ്പെടുത്തൽ പഠനം

റോബോട്ടിക്‌സ് മേഖലയിലെ ഒരു പ്രധാന രീതിയായി ഗവേഷകർ RL കണക്കാക്കുന്നു. എഞ്ചിനീയറിംഗിന് ബുദ്ധിമുട്ടായേക്കാവുന്ന സങ്കീർണ്ണമായ പ്രവർത്തനങ്ങൾ പഠിക്കാൻ റോബോട്ടിക് ഏജന്റുമാർക്ക് ഒരു ചട്ടക്കൂട് ശക്തിപ്പെടുത്തൽ പഠനം നൽകുന്നു.

ഗെയിമിംഗിൽ ശക്തിപ്പെടുത്തൽ പഠനം

വീഡിയോ ഗെയിമുകൾ കളിക്കുന്നത് എങ്ങനെയെന്ന് അറിയാൻ ആർഎൽ മോഡലുകളും ഉപയോഗിച്ചിട്ടുണ്ട്. തങ്ങളുടെ തെറ്റുകളിൽ നിന്ന് പഠിക്കാനും ഗെയിമിലെ അവരുടെ പ്രകടനം തുടർച്ചയായി മെച്ചപ്പെടുത്താനും ഏജന്റുമാരെ സജ്ജമാക്കാൻ കഴിയും.

ചെസ്സ്, ഗോ, പോക്കർ തുടങ്ങിയ ഗെയിമുകൾ കളിക്കാൻ കഴിയുന്ന ഏജന്റുമാരെ ഗവേഷകർ ഇതിനകം വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. 2013-ൽ, ദീപ്പ് മൈൻഡ് ആദ്യം മുതൽ അറ്റാരി ഗെയിമുകൾ എങ്ങനെ കളിക്കാമെന്ന് മനസിലാക്കാൻ ഒരു മോഡലിനെ അനുവദിക്കുന്നതിന് ഡീപ് റീഇൻഫോഴ്സ്മെന്റ് ലേണിംഗ് ഉപയോഗിച്ചു.

പല ബോർഡ് ഗെയിമുകൾക്കും വീഡിയോ ഗെയിമുകൾക്കും പരിമിതമായ പ്രവർത്തന ഇടവും കൃത്യമായ ലക്ഷ്യവും ഉണ്ട്. ഈ സ്വഭാവവിശേഷങ്ങൾ RL മോഡലിന്റെ നേട്ടത്തിനായി പ്രവർത്തിക്കുന്നു. വിജയം നേടുന്നതിനുള്ള ഒപ്റ്റിമൽ തന്ത്രങ്ങൾ പഠിക്കാൻ RL രീതികൾക്ക് ദശലക്ഷക്കണക്കിന് സിമുലേറ്റഡ് ഗെയിമുകൾ വേഗത്തിൽ ആവർത്തിക്കാനാകും.

തീരുമാനം

എങ്ങനെ നടക്കണമെന്ന് പഠിക്കുകയാണെങ്കിലും വീഡിയോ ഗെയിമുകൾ കളിക്കുന്നത് എങ്ങനെയെന്ന് പഠിക്കുകയാണെങ്കിലും, സങ്കീർണ്ണമായ തീരുമാനമെടുക്കൽ ആവശ്യമായ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിന് RL മോഡലുകൾ ഉപയോഗപ്രദമായ AI ചട്ടക്കൂടുകളാണെന്ന് തെളിയിക്കപ്പെട്ടിട്ടുണ്ട്.

സാങ്കേതികവിദ്യ വികസിക്കുന്നത് തുടരുമ്പോൾ, ഗവേഷകരും ഡവലപ്പർമാരും മോഡലിന്റെ സ്വയം പഠിപ്പിക്കാനുള്ള കഴിവ് പ്രയോജനപ്പെടുത്തുന്ന പുതിയ ആപ്ലിക്കേഷനുകൾ കണ്ടെത്തുന്നത് തുടരും.

റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് ഏത് പ്രായോഗിക പ്രയോഗങ്ങളെ സഹായിക്കുമെന്ന് നിങ്ങൾ കരുതുന്നു?

റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്: തെറ്റുകളിൽ നിന്ന് പഠിക്കുന്ന AI

എന്താണ് ശക്തിപ്പെടുത്തൽ പഠനം?