चला कल्पना करा की तुम्ही एखाद्या रोबोटला कसे चालायचे ते शिकवण्याचा प्रयत्न करत आहात. संगणकाला स्टॉकच्या किमतींचा अंदाज कसा लावायचा किंवा प्रतिमांचे वर्गीकरण कसे करायचे हे शिकवण्यासारखे नाही, आमच्याकडे खरोखर मोठा डेटासेट नाही जो आम्ही आमच्या रोबोटला प्रशिक्षित करण्यासाठी वापरू शकतो.
हे आपल्यासाठी नैसर्गिकरित्या येत असले तरी चालणे ही खरोखर एक अतिशय गुंतागुंतीची क्रिया आहे. एक पाऊल चालण्यामध्ये सामान्यतः डझनभर विविध स्नायू एकत्र काम करतात. एका ठिकाणाहून दुस-या ठिकाणी चालण्यासाठी वापरलेले प्रयत्न आणि तंत्रे देखील विविध घटकांवर अवलंबून असतात, ज्यात तुम्ही काहीतरी घेऊन जात आहात की नाही किंवा झुकता किंवा इतर प्रकारचे अडथळे आहेत का.
यासारख्या परिस्थितींमध्ये, आम्ही रीइन्फोर्समेंट लर्निंग किंवा RL म्हणून ओळखली जाणारी पद्धत वापरू शकतो. RL सह, तुम्ही तुमच्या मॉडेलने तुम्हाला सोडवायचे असलेले विशिष्ट उद्दिष्ट परिभाषित करू शकता आणि हळूहळू ते कसे पूर्ण करायचे ते मॉडेलला स्वतःहून शिकू द्या.
या लेखात, आम्ही मजबुतीकरण शिक्षणाच्या मूलभूत गोष्टींचा शोध घेऊ आणि वास्तविक जगातील विविध समस्यांवर आम्ही RL फ्रेमवर्क कसे लागू करू शकतो.
मजबुतीकरण शिक्षण म्हणजे काय?
मजबुतीकरण शिक्षण हे एका विशिष्ट उपसंचाचा संदर्भ देते मशीन शिक्षण जे इच्छित वर्तनांना पुरस्कृत करून आणि अवांछित वर्तनांना शिक्षा देऊन उपाय शोधण्यावर लक्ष केंद्रित करते.
पर्यवेक्षित शिक्षणाच्या विपरीत, मजबुतीकरण शिक्षण पद्धतीमध्ये विशेषत: प्रशिक्षण डेटासेट नसतो जो दिलेल्या इनपुटसाठी योग्य आउटपुट प्रदान करतो. प्रशिक्षण डेटाच्या अनुपस्थितीत, अल्गोरिदमने चाचणी आणि त्रुटीद्वारे उपाय शोधणे आवश्यक आहे. अल्गोरिदम, ज्याला आम्ही सामान्यतः एक म्हणून संदर्भित करतो एजंट, यांच्याशी संवाद साधून स्वतःच उपाय शोधला पाहिजे पर्यावरण.
संशोधक कोणत्या विशिष्ट परिणामांवर निर्णय घेतात बक्षीस आणि अल्गोरिदम काय करण्यास सक्षम आहे. प्रत्येक कारवाई अल्गोरिदमला काही प्रकारचा फीडबॅक मिळेल जो अल्गोरिदम किती चांगले काम करत आहे. प्रशिक्षण प्रक्रियेदरम्यान, अल्गोरिदम अखेरीस विशिष्ट समस्येचे निराकरण करण्यासाठी इष्टतम उपाय शोधेल.
एक साधे उदाहरण: 4×4 ग्रिड
मजबुतीकरण शिक्षणाद्वारे आपण सोडवू शकतो अशा समस्येचे एक साधे उदाहरण पाहू.
समजा, आपले वातावरण म्हणून आपल्याकडे 4×4 ग्रिड आहे. आमचा एजंट काही अडथळ्यांसह यादृच्छिकपणे एका चौकात ठेवला जातो. ग्रिडमध्ये तीन "खड्डा" अडथळे असतील जे टाळले पाहिजेत आणि एजंटला शोधणे आवश्यक असलेले एक "डायमंड" बक्षीस असावे. आपल्या पर्यावरणाचे संपूर्ण वर्णन पर्यावरण म्हणून ओळखले जाते राज्य.
आमच्या RL मॉडेलमध्ये, आमचा एजंट कोणत्याही समीप चौकात जाऊ शकतो जोपर्यंत त्यांना अवरोधित करण्यात कोणतेही अडथळे येत नाहीत. दिलेल्या वातावरणातील सर्व वैध क्रियांचा संच म्हणून ओळखला जातो क्रिया जागा. आमच्या एजंटचे ध्येय बक्षीसासाठी सर्वात लहान मार्ग शोधणे आहे.
आमचा एजंट रीइन्फोर्समेंट लर्निंग पद्धतीचा वापर करून हिऱ्याचा मार्ग शोधेल ज्यासाठी कमीत कमी पायऱ्यांची आवश्यकता आहे. प्रत्येक योग्य पाऊल रोबोटला बक्षीस देईल आणि प्रत्येक चुकीचे पाऊल रोबोटचे बक्षीस वजा करेल. एजंट हिऱ्यापर्यंत पोहोचल्यानंतर मॉडेल एकूण बक्षीसाची गणना करते.
आता आम्ही एजंट आणि वातावरण परिभाषित केले आहे, आम्ही एजंटची सद्यस्थिती आणि वातावरण लक्षात घेऊन पुढील क्रिया ठरवण्यासाठी वापरण्याचे नियम देखील परिभाषित केले पाहिजेत.
धोरणे आणि पुरस्कार
मजबुतीकरण शिक्षण मॉडेलमध्ये, ए धोरण एजंटने त्यांचे ध्येय साध्य करण्यासाठी वापरलेल्या धोरणाचा संदर्भ देते. एजंटची सद्यस्थिती आणि त्याचे वातावरण पाहता एजंटने पुढे काय करावे हे एजंटचे धोरण ठरवते.
कोणती पॉलिसी इष्टतम आहे हे पाहण्यासाठी एजंटने सर्व संभाव्य धोरणांचे मूल्यांकन केले पाहिजे.
आमच्या साध्या उदाहरणात, रिकाम्या जागेवर उतरल्यास -1 चे मूल्य मिळेल. जेव्हा एजंट डायमंड रिवॉर्डसह एका जागेवर उतरतो तेव्हा त्यांना 10 चे मूल्य प्राप्त होईल. या मूल्यांचा वापर करून, आम्ही विविध धोरणांची तुलना करू शकतो. उपयुक्तता कार्य U.
आता वर पाहिलेल्या दोन धोरणांच्या उपयुक्ततेची तुलना करूया:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
परिणाम दाखवतात की पॉलिसी A हा पुरस्कार शोधण्याचा उत्तम मार्ग आहे. अशा प्रकारे, एजंट पॉलिसी बी पेक्षा पथ A चा वापर करेल.
एक्सप्लोरेशन विरुद्ध शोषण
मजबुतीकरण शिक्षणामध्ये एक्सप्लोरेशन विरुद्ध शोषण व्यापार-बंद समस्या ही एक दुविधा आहे ज्याचा सामना एजंटला निर्णय प्रक्रियेदरम्यान करावा लागतो.
एजंटांनी नवीन मार्ग किंवा पर्याय शोधण्यावर लक्ष केंद्रित केले पाहिजे की त्यांना आधीच माहित असलेल्या पर्यायांचे शोषण करणे सुरू ठेवावे?
एजंटने अन्वेषण करणे निवडल्यास, एजंटला एक चांगला पर्याय शोधण्याची शक्यता आहे, परंतु यामुळे वेळ आणि संसाधने वाया जाण्याचा धोका देखील असू शकतो. दुसरीकडे, जर एजंटने त्याला आधीच माहीत असलेल्या उपायाचा फायदा उठवायचा ठरवला, तर तो एक चांगला पर्याय गमावू शकतो.
व्यावहारिक अनुप्रयोग
येथे काही मार्ग आहेत एआय संशोधक वास्तविक-जगातील समस्यांचे निराकरण करण्यासाठी मजबुतीकरण शिक्षण मॉडेल लागू केले आहेत:
सेल्फ-ड्रायव्हिंग कारमध्ये मजबुतीकरण शिक्षण
सुरक्षितपणे आणि कार्यक्षमतेने गाडी चालवण्याची त्यांची क्षमता सुधारण्यासाठी सेल्फ-ड्रायव्हिंग कारवर मजबुतीकरण शिक्षण लागू केले गेले आहे. तंत्रज्ञान स्वायत्त कारना त्यांच्या चुकांमधून शिकण्यास आणि त्यांचे कार्यप्रदर्शन ऑप्टिमाइझ करण्यासाठी त्यांचे वर्तन सतत समायोजित करण्यास सक्षम करते.
उदाहरणार्थ, लंडनस्थित AI कंपनी वेव्ह स्वायत्त ड्रायव्हिंगसाठी सखोल मजबुतीकरण शिक्षण मॉडेल यशस्वीरित्या लागू केले आहे. त्यांच्या प्रयोगात, त्यांनी रिवॉर्ड फंक्शन वापरले जे वाहन चालक ऑनबोर्ड इनपुट न देता जास्तीत जास्त वेळ चालवते.
RL मॉडेल कारला पर्यावरणावर आधारित निर्णय घेण्यास मदत करतात, जसे की अडथळे टाळणे किंवा रहदारीमध्ये विलीन होणे. या मॉडेल्सना कारच्या आजूबाजूचे जटिल वातावरण मॉडेलला समजू शकेल अशा प्रातिनिधिक स्थितीत रूपांतरित करण्याचा मार्ग शोधणे आवश्यक आहे.
रोबोटिक्समध्ये मजबुतीकरण शिक्षण
संशोधक जटिल कार्ये शिकू शकणारे रोबोट विकसित करण्यासाठी मजबुतीकरण शिक्षण देखील वापरत आहेत. या आरएल मॉडेल्सद्वारे, रोबोट्स त्यांच्या वातावरणाचे निरीक्षण करू शकतात आणि त्यांच्या निरीक्षणांवर आधारित निर्णय घेऊ शकतात.
उदाहरणार्थ, बायपेडल रोबोट्स कसे शिकू शकतात हे शिकण्यास अनुमती देण्यासाठी मजबुतीकरण शिक्षण मॉडेल वापरण्यावर संशोधन केले गेले आहे. चाला त्यांच्या स्वत: च्या वर.
संशोधक आरएल ही रोबोटिक्सच्या क्षेत्रातील प्रमुख पद्धत मानतात. मजबुतीकरण शिक्षण रोबोटिक एजंटना अत्याधुनिक क्रिया शिकण्यासाठी एक फ्रेमवर्क देते जे अन्यथा अभियंता करणे कठीण असू शकते.
गेमिंगमध्ये मजबुतीकरण शिक्षण
व्हिडिओ गेम कसे खेळायचे हे शिकण्यासाठी RL मॉडेल देखील वापरले गेले आहेत. एजंटना त्यांच्या चुकांमधून शिकण्यासाठी आणि गेममधील त्यांची कामगिरी सतत सुधारण्यासाठी सेट केले जाऊ शकते.
संशोधकांनी आधीच एजंट विकसित केले आहेत जे बुद्धिबळ, गो आणि पोकरसारखे खेळ खेळू शकतात. 2013 मध्ये, Deepmind मॉडेलला सुरवातीपासून अटारी गेम कसे खेळायचे हे शिकण्यास अनुमती देण्यासाठी डीप रीइन्फोर्समेंट लर्निंग वापरले.
बर्याच बोर्ड गेम आणि व्हिडिओ गेममध्ये मर्यादित अॅक्शन स्पेस आणि एक चांगले-परिभाषित ठोस लक्ष्य असते. हे गुणधर्म RL मॉडेलच्या फायद्यासाठी कार्य करतात. विजय मिळविण्यासाठी इष्टतम रणनीती जाणून घेण्यासाठी RL पद्धती लाखो सिम्युलेटेड गेममध्ये त्वरीत पुनरावृत्ती करू शकतात.
निष्कर्ष
चालणे शिकणे असो किंवा व्हिडिओ गेम कसे खेळायचे ते शिकणे असो, RL मॉडेल्स जटिल निर्णय घेण्याची आवश्यकता असलेल्या समस्यांचे निराकरण करण्यासाठी उपयुक्त AI फ्रेमवर्क असल्याचे सिद्ध झाले आहे.
तंत्रज्ञान विकसित होत असताना, संशोधक आणि विकासक दोघेही नवीन अनुप्रयोग शोधत राहतील जे मॉडेलच्या स्वयं-शिक्षण क्षमतेचा लाभ घेतील.
मजबुतीकरण शिक्षण कोणत्या व्यावहारिक अनुप्रयोगांमध्ये मदत करू शकते असे तुम्हाला वाटते?
प्रत्युत्तर द्या