நீங்கள் ஒரு ரோபோவுக்கு எப்படி நடக்க வேண்டும் என்று கற்றுக்கொடுக்க முயற்சிக்கிறீர்கள் என்று வைத்துக்கொள்வோம். பங்கு விலைகளை கணிப்பது அல்லது படங்களை வகைப்படுத்துவது எப்படி என்பதை கம்ப்யூட்டருக்குக் கற்பிப்பது போலல்லாமல், நம் ரோபோவைப் பயிற்றுவிக்கப் பயன்படுத்தக்கூடிய பெரிய தரவுத்தொகுப்பு எங்களிடம் இல்லை.
இது உங்களுக்கு இயல்பாக வரலாம் என்றாலும், நடைபயிற்சி உண்மையில் மிகவும் சிக்கலான செயலாகும். ஒரு படி நடப்பது பொதுவாக டஜன் கணக்கான வெவ்வேறு தசைகள் ஒன்றாக வேலை செய்வதை உள்ளடக்கியது. ஒரு இடத்திலிருந்து இன்னொரு இடத்திற்கு நடக்கப் பயன்படுத்தப்படும் முயற்சி மற்றும் நுட்பங்கள், நீங்கள் எதையாவது எடுத்துச் செல்கிறீர்களா அல்லது சாய்வு அல்லது பிற வகையான தடைகள் உள்ளதா என்பது உட்பட பல்வேறு காரணிகளைப் பொறுத்தது.
இது போன்ற சூழ்நிலைகளில், வலுவூட்டல் கற்றல் அல்லது RL எனப்படும் முறையைப் பயன்படுத்தலாம். RL மூலம், உங்கள் மாடல் தீர்க்க விரும்பும் ஒரு குறிப்பிட்ட இலக்கை நீங்கள் வரையறுத்து, அதை எவ்வாறு நிறைவேற்றுவது என்பதை படிப்படியாக மாடல் கற்றுக்கொள்ள அனுமதிக்கலாம்.
இந்தக் கட்டுரையில், வலுவூட்டல் கற்றலின் அடிப்படைகள் மற்றும் நிஜ உலகில் உள்ள பல்வேறு பிரச்சனைகளுக்கு RL கட்டமைப்பை எவ்வாறு பயன்படுத்தலாம் என்பதை ஆராய்வோம்.
வலுவூட்டல் கற்றல் என்றால் என்ன?
வலுவூட்டல் கற்றல் என்பது ஒரு குறிப்பிட்ட துணைக்குழுவைக் குறிக்கிறது இயந்திர கற்றல் விரும்பிய நடத்தைகளுக்கு வெகுமதி அளிப்பதன் மூலமும், விரும்பத்தகாத நடத்தைகளைத் தண்டிப்பதன் மூலமும் தீர்வுகளைக் கண்டறிவதில் கவனம் செலுத்துகிறது.
மேற்பார்வையிடப்பட்ட கற்றல் போலல்லாமல், வலுவூட்டல் கற்றல் முறையானது கொடுக்கப்பட்ட உள்ளீட்டிற்கு சரியான வெளியீட்டை வழங்கும் பயிற்சி தரவுத்தொகுப்பைக் கொண்டிருக்கவில்லை. பயிற்சி தரவு இல்லாத நிலையில், அல்காரிதம் சோதனை மற்றும் பிழை மூலம் தீர்வு காண வேண்டும். அல்காரிதம், நாம் பொதுவாக ஒரு என குறிப்பிடுகிறோம் முகவர், உடன் தொடர்பு கொண்டு தானே தீர்வு காண வேண்டும் சூழல்.
குறிப்பிட்ட முடிவுகள் என்ன என்பதை ஆராய்ச்சியாளர்கள் தீர்மானிக்கிறார்கள் வெகுமதி மற்றும் அல்காரிதம் என்ன செய்ய முடியும். ஒவ்வொரு நடவடிக்கை அல்காரிதம் எடுக்கும் வழிமுறையானது, அல்காரிதம் எவ்வளவு சிறப்பாகச் செயல்படுகிறது என்பதை மதிப்பிடும் சில வகையான கருத்துக்களைப் பெறும். பயிற்சி செயல்பாட்டின் போது, அல்காரிதம் இறுதியில் ஒரு குறிப்பிட்ட சிக்கலைத் தீர்க்க உகந்த தீர்வைக் கண்டுபிடிக்கும்.
ஒரு எளிய எடுத்துக்காட்டு: 4×4 கட்டம்
வலுவூட்டல் கற்றல் மூலம் நாம் தீர்க்கக்கூடிய ஒரு சிக்கலின் எளிய உதாரணத்தைப் பார்ப்போம்.
நமது சூழலாக 4×4 கட்டம் இருப்பதாக வைத்துக்கொள்வோம். எங்கள் முகவர் ஒரு சில தடைகளுடன் ஒரு சதுரத்தில் தோராயமாக வைக்கப்படுகிறார். கட்டம் தவிர்க்கப்பட வேண்டிய மூன்று "குழி" தடைகளையும், ஏஜென்ட் கண்டுபிடிக்க வேண்டிய ஒரு "வைர" வெகுமதியையும் கொண்டிருக்கும். நமது சுற்றுச்சூழலைப் பற்றிய முழுமையான விளக்கம் சுற்றுச்சூழல் என்று அழைக்கப்படுகிறது இருந்து.
எங்கள் RL மாதிரியில், எங்கள் முகவர் எந்தத் தடையும் இல்லாதவரை, அருகிலுள்ள எந்தச் சதுரத்திற்கும் செல்ல முடியும். கொடுக்கப்பட்ட சூழலில் அனைத்து செல்லுபடியாகும் செயல்களின் தொகுப்பு என அழைக்கப்படுகிறது செயல் இடம். வெகுமதிக்கான குறுகிய பாதையைக் கண்டறிவதே எங்கள் முகவரின் குறிக்கோள்.
எங்கள் ஏஜென்ட் வலுவூட்டல் கற்றல் முறையைப் பயன்படுத்தி, குறைந்த அளவு படிகள் தேவைப்படும் வைரத்திற்கான பாதையைக் கண்டுபிடிப்பார். ஒவ்வொரு சரியான அடியும் ரோபோவுக்கு வெகுமதியைக் கொடுக்கும் மற்றும் ஒவ்வொரு தவறான அடியும் ரோபோவின் வெகுமதியைக் கழிக்கும். ஏஜெண்ட் வைரத்தை அடைந்தவுடன் மாடல் மொத்த வெகுமதியைக் கணக்கிடுகிறது.
இப்போது முகவர் மற்றும் சுற்றுச்சூழலை வரையறுத்துள்ளோம், அதன் தற்போதைய நிலை மற்றும் சுற்றுச்சூழலைக் கருத்தில் கொண்டு முகவர் எடுக்கும் அடுத்த நடவடிக்கையைத் தீர்மானிக்கப் பயன்படுத்த வேண்டிய விதிகளையும் வரையறுக்க வேண்டும்.
கொள்கைகள் மற்றும் வெகுமதிகள்
வலுவூட்டல் கற்றல் மாதிரியில், ஏ கொள்கை ஒரு முகவர் தங்கள் இலக்குகளை நிறைவேற்ற பயன்படுத்தும் உத்தியைக் குறிக்கிறது. முகவரின் தற்போதைய நிலை மற்றும் அதன் சுற்றுச்சூழலைக் கருத்தில் கொண்டு முகவர் அடுத்து என்ன செய்ய வேண்டும் என்பதை முகவர் கொள்கை தீர்மானிக்கிறது.
எந்தக் கொள்கை உகந்தது என்பதைப் பார்க்க, ஏஜென்ட் அனைத்து சாத்தியமான கொள்கைகளையும் மதிப்பீடு செய்ய வேண்டும்.
எங்களின் எளிய எடுத்துக்காட்டில், வெற்று இடத்தில் இறங்கினால் -1 மதிப்பு கிடைக்கும். டயமண்ட் வெகுமதியுடன் ஒரு இடத்தில் ஏஜென்ட் இறங்கும் போது, அவர்கள் 10 மதிப்பைப் பெறுவார்கள். இந்த மதிப்புகளைப் பயன்படுத்தி, நாம் வெவ்வேறு கொள்கைகளை ஒப்பிடலாம் பயன்பாட்டு செயல்பாடு U.
மேலே காணப்பட்ட இரண்டு கொள்கைகளின் பயன்பாட்டை இப்போது ஒப்பிடுவோம்:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
பாலிசி A என்பது வெகுமதியைக் கண்டறிவதற்கான சிறந்த வழி என்று முடிவுகள் காட்டுகின்றன. எனவே, ஏஜென்ட், பாலிசி Bக்கு மேல் பாதை A ஐப் பயன்படுத்துவார்.
ஆய்வு எதிராக சுரண்டல்
வலுவூட்டல் கற்றலில் ஆய்வு மற்றும் சுரண்டல் வர்த்தகம்-ஆஃப் பிரச்சனை என்பது முடிவெடுக்கும் செயல்பாட்டின் போது முகவர் எதிர்கொள்ள வேண்டிய ஒரு இக்கட்டான நிலை.
முகவர்கள் புதிய பாதைகள் அல்லது விருப்பங்களை ஆராய்வதில் கவனம் செலுத்த வேண்டுமா அல்லது அவர்களுக்கு ஏற்கனவே தெரிந்த விருப்பங்களை தொடர்ந்து பயன்படுத்த வேண்டுமா?
முகவர் ஆய்வு செய்யத் தேர்வுசெய்தால், முகவர் ஒரு சிறந்த விருப்பத்தைக் கண்டறியும் வாய்ப்பு உள்ளது, ஆனால் அது நேரத்தையும் வளங்களையும் வீணடிக்கும் அபாயத்தையும் ஏற்படுத்தலாம். மறுபுறம், முகவர் தனக்கு ஏற்கனவே தெரிந்த தீர்வைப் பயன்படுத்தத் தேர்வுசெய்தால், அது ஒரு சிறந்த விருப்பத்தைத் தவறவிடக்கூடும்.
நடைமுறை பயன்பாடுகள்
இதோ சில வழிகள் AI ஆராய்ச்சியாளர்கள் நிஜ-உலகப் பிரச்சனைகளைத் தீர்க்க வலுவூட்டல் கற்றல் மாதிரிகளைப் பயன்படுத்தியுள்ளனர்:
சுய-ஓட்டுநர் கார்களில் வலுவூட்டல் கற்றல்
பாதுகாப்பாகவும் திறமையாகவும் ஓட்டும் திறனை மேம்படுத்துவதற்காக சுய-ஓட்டுநர் கார்களுக்கு வலுவூட்டல் கற்றல் பயன்படுத்தப்பட்டுள்ளது. தொழில்நுட்பம் தன்னாட்சி கார்கள் தங்கள் தவறுகளில் இருந்து கற்றுக் கொள்ளவும், அவற்றின் செயல்திறனை மேம்படுத்தும் வகையில் அவற்றின் நடத்தையை தொடர்ந்து சரிசெய்யவும் உதவுகிறது.
உதாரணமாக, லண்டனை தளமாகக் கொண்ட AI நிறுவனம் வழி தன்னாட்சி ஓட்டுதலுக்கான ஆழமான வலுவூட்டல் கற்றல் மாதிரியை வெற்றிகரமாகப் பயன்படுத்தியது. அவர்களது பரிசோதனையில், ஓட்டுநர் உள்ளீட்டை வழங்காமல் வாகனம் இயங்கும் நேரத்தை அதிகப்படுத்தும் வெகுமதி செயல்பாட்டைப் பயன்படுத்தினார்கள்.
தடைகளைத் தவிர்ப்பது அல்லது போக்குவரத்தில் இணைவது போன்ற சுற்றுச்சூழலின் அடிப்படையில் கார்கள் முடிவுகளை எடுக்கவும் RL மாடல்கள் உதவுகின்றன. இந்த மாதிரிகள் ஒரு காரைச் சுற்றியுள்ள சிக்கலான சூழலை மாடல் புரிந்துகொள்ளக்கூடிய பிரதிநிதி நிலை இடமாக மாற்றுவதற்கான வழியைக் கண்டுபிடிக்க வேண்டும்.
ரோபாட்டிக்ஸில் வலுவூட்டல் கற்றல்
சிக்கலான பணிகளைக் கற்றுக்கொள்ளக்கூடிய ரோபோக்களை உருவாக்க ஆராய்ச்சியாளர்கள் வலுவூட்டல் கற்றலைப் பயன்படுத்தி வருகின்றனர். இந்த RL மாதிரிகள் மூலம், ரோபோக்கள் தங்கள் சுற்றுச்சூழலைக் கண்காணிக்கவும், அவற்றின் அவதானிப்புகளின் அடிப்படையில் முடிவுகளை எடுக்கவும் முடியும்.
எடுத்துக்காட்டாக, இரு கால் ரோபோக்களை எவ்வாறு கற்றுக்கொள்வது என்பதை அனுமதிக்க வலுவூட்டல் கற்றல் மாதிரிகளைப் பயன்படுத்துவது குறித்து ஆராய்ச்சி செய்யப்பட்டுள்ளது. நட சொந்தமாக.
ரோபாட்டிக்ஸ் துறையில் RL ஒரு முக்கிய முறையாக ஆராய்ச்சியாளர்கள் கருதுகின்றனர். வலுவூட்டல் கற்றல் ரோபோ முகவர்களுக்கு பொறியியலாக்க கடினமாக இருக்கும் அதிநவீன செயல்களைக் கற்றுக்கொள்வதற்கான கட்டமைப்பை வழங்குகிறது.
கேமிங்கில் வலுவூட்டல் கற்றல்
வீடியோ கேம்களை எப்படி விளையாடுவது என்பதை அறிய RL மாடல்களும் பயன்படுத்தப்பட்டுள்ளன. ஏஜெண்டுகள் தங்கள் தவறுகளிலிருந்து கற்றுக்கொள்ளவும், விளையாட்டில் அவர்களின் செயல்திறனை தொடர்ந்து மேம்படுத்தவும் அமைக்கப்படலாம்.
செஸ், கோ மற்றும் போக்கர் போன்ற விளையாட்டுகளை விளையாடக்கூடிய முகவர்களை ஆராய்ச்சியாளர்கள் ஏற்கனவே உருவாக்கியுள்ளனர். 2013 இல், Deepmind புதிதாக அடாரி கேம்களை விளையாடுவது எப்படி என்பதை ஒரு மாடலை அனுமதிக்க ஆழமான வலுவூட்டல் கற்றல் பயன்படுத்தப்பட்டது.
பல போர்டு கேம்கள் மற்றும் வீடியோ கேம்கள் வரையறுக்கப்பட்ட செயல் இடத்தையும் நன்கு வரையறுக்கப்பட்ட உறுதியான இலக்கையும் கொண்டுள்ளன. இந்த பண்புகள் RL மாதிரியின் நன்மைக்கு வேலை செய்கின்றன. வெற்றியை அடைவதற்கான உகந்த உத்திகளைக் கற்றுக்கொள்ள RL முறைகள் மில்லியன் கணக்கான சிமுலேட்டட் கேம்களை விரைவாகச் செயல்படுத்த முடியும்.
தீர்மானம்
எப்படி நடக்க வேண்டும் என்பதைக் கற்றுக்கொள்வது அல்லது வீடியோ கேம்களை விளையாடுவது எப்படி என்பதைக் கற்றுக்கொள்வது, RL மாதிரிகள் சிக்கலான முடிவெடுக்கும் சிக்கல்களைத் தீர்ப்பதற்கு பயனுள்ள AI கட்டமைப்புகள் என நிரூபிக்கப்பட்டுள்ளது.
தொழில்நுட்பம் தொடர்ந்து வளர்ச்சியடைந்து வருவதால், மாதிரியின் சுய-கற்பித்தல் திறனைப் பயன்படுத்திக் கொள்ளும் புதிய பயன்பாடுகளை ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் இருவரும் தொடர்ந்து கண்டுபிடிப்பார்கள்.
வலுவூட்டல் கற்றல் என்ன நடைமுறை பயன்பாடுகளுக்கு உதவும் என்று நீங்கள் நினைக்கிறீர்கள்?
ஒரு பதில் விடவும்