मजबुतीकरण शिक्षण: एआय जे त्याच्या चुकांमधून शिकते

अनुक्रमणिका[लपवा][दाखवा]

मजबुतीकरण शिक्षण म्हणजे काय?
एक साधे उदाहरण: 4×4 ग्रिड+-
- धोरणे आणि पुरस्कार
- एक्सप्लोरेशन विरुद्ध शोषण
व्यावहारिक अनुप्रयोग+-
निष्कर्ष

चला कल्पना करा की तुम्ही एखाद्या रोबोटला कसे चालायचे ते शिकवण्याचा प्रयत्न करत आहात. संगणकाला स्टॉकच्या किमतींचा अंदाज कसा लावायचा किंवा प्रतिमांचे वर्गीकरण कसे करायचे हे शिकवण्यासारखे नाही, आमच्याकडे खरोखर मोठा डेटासेट नाही जो आम्ही आमच्या रोबोटला प्रशिक्षित करण्यासाठी वापरू शकतो.

हे आपल्यासाठी नैसर्गिकरित्या येत असले तरी चालणे ही खरोखर एक अतिशय गुंतागुंतीची क्रिया आहे. एक पाऊल चालण्यामध्ये सामान्यतः डझनभर विविध स्नायू एकत्र काम करतात. एका ठिकाणाहून दुस-या ठिकाणी चालण्यासाठी वापरलेले प्रयत्न आणि तंत्रे देखील विविध घटकांवर अवलंबून असतात, ज्यात तुम्ही काहीतरी घेऊन जात आहात की नाही किंवा झुकता किंवा इतर प्रकारचे अडथळे आहेत का.

यासारख्या परिस्थितींमध्ये, आम्ही रीइन्फोर्समेंट लर्निंग किंवा RL म्हणून ओळखली जाणारी पद्धत वापरू शकतो. RL सह, तुम्ही तुमच्या मॉडेलने तुम्हाला सोडवायचे असलेले विशिष्ट उद्दिष्ट परिभाषित करू शकता आणि हळूहळू ते कसे पूर्ण करायचे ते मॉडेलला स्वतःहून शिकू द्या.

या लेखात, आम्ही मजबुतीकरण शिक्षणाच्या मूलभूत गोष्टींचा शोध घेऊ आणि वास्तविक जगातील विविध समस्यांवर आम्ही RL फ्रेमवर्क कसे लागू करू शकतो.

मजबुतीकरण शिक्षण म्हणजे काय?

मजबुतीकरण शिक्षण हे एका विशिष्ट उपसंचाचा संदर्भ देते मशीन शिक्षण जे इच्छित वर्तनांना पुरस्कृत करून आणि अवांछित वर्तनांना शिक्षा देऊन उपाय शोधण्यावर लक्ष केंद्रित करते.

मजबुतीकरण शिक्षण फ्रेमवर्कचा आकृती

पर्यवेक्षित शिक्षणाच्या विपरीत, मजबुतीकरण शिक्षण पद्धतीमध्ये विशेषत: प्रशिक्षण डेटासेट नसतो जो दिलेल्या इनपुटसाठी योग्य आउटपुट प्रदान करतो. प्रशिक्षण डेटाच्या अनुपस्थितीत, अल्गोरिदमने चाचणी आणि त्रुटीद्वारे उपाय शोधणे आवश्यक आहे. अल्गोरिदम, ज्याला आम्ही सामान्यतः एक म्हणून संदर्भित करतो एजंट, यांच्याशी संवाद साधून स्वतःच उपाय शोधला पाहिजे पर्यावरण.

संशोधक कोणत्या विशिष्ट परिणामांवर निर्णय घेतात बक्षीस आणि अल्गोरिदम काय करण्यास सक्षम आहे. प्रत्येक कारवाई अल्गोरिदमला काही प्रकारचा फीडबॅक मिळेल जो अल्गोरिदम किती चांगले काम करत आहे. प्रशिक्षण प्रक्रियेदरम्यान, अल्गोरिदम अखेरीस विशिष्ट समस्येचे निराकरण करण्यासाठी इष्टतम उपाय शोधेल.

एक साधे उदाहरण: 4×4 ग्रिड

मजबुतीकरण शिक्षणाद्वारे आपण सोडवू शकतो अशा समस्येचे एक साधे उदाहरण पाहू.

समजा, आपले वातावरण म्हणून आपल्याकडे 4×4 ग्रिड आहे. आमचा एजंट काही अडथळ्यांसह यादृच्छिकपणे एका चौकात ठेवला जातो. ग्रिडमध्ये तीन "खड्डा" अडथळे असतील जे टाळले पाहिजेत आणि एजंटला शोधणे आवश्यक असलेले एक "डायमंड" बक्षीस असावे. आपल्या पर्यावरणाचे संपूर्ण वर्णन पर्यावरण म्हणून ओळखले जाते राज्य.

मजबुतीकरण शिक्षण नक्कल केलेल्या वातावरणाशी संवाद साधणाऱ्या एजंटवर अवलंबून असते

आमच्या RL मॉडेलमध्ये, आमचा एजंट कोणत्याही समीप चौकात जाऊ शकतो जोपर्यंत त्यांना अवरोधित करण्यात कोणतेही अडथळे येत नाहीत. दिलेल्या वातावरणातील सर्व वैध क्रियांचा संच म्हणून ओळखला जातो क्रिया जागा. आमच्या एजंटचे ध्येय बक्षीसासाठी सर्वात लहान मार्ग शोधणे आहे.

एजंटकडे कृतीची जागा आहे किंवा दिलेल्या स्थितीत वैध क्रियांचा संच आहे

आमचा एजंट रीइन्फोर्समेंट लर्निंग पद्धतीचा वापर करून हिऱ्याचा मार्ग शोधेल ज्यासाठी कमीत कमी पायऱ्यांची आवश्यकता आहे. प्रत्येक योग्य पाऊल रोबोटला बक्षीस देईल आणि प्रत्येक चुकीचे पाऊल रोबोटचे बक्षीस वजा करेल. एजंट हिऱ्यापर्यंत पोहोचल्यानंतर मॉडेल एकूण बक्षीसाची गणना करते.

आता आम्ही एजंट आणि वातावरण परिभाषित केले आहे, आम्ही एजंटची सद्यस्थिती आणि वातावरण लक्षात घेऊन पुढील क्रिया ठरवण्यासाठी वापरण्याचे नियम देखील परिभाषित केले पाहिजेत.

धोरणे आणि पुरस्कार

मजबुतीकरण शिक्षण मॉडेलमध्ये, ए धोरण एजंटने त्यांचे ध्येय साध्य करण्यासाठी वापरलेल्या धोरणाचा संदर्भ देते. एजंटची सद्यस्थिती आणि त्याचे वातावरण पाहता एजंटने पुढे काय करावे हे एजंटचे धोरण ठरवते.

कोणती पॉलिसी इष्टतम आहे हे पाहण्यासाठी एजंटने सर्व संभाव्य धोरणांचे मूल्यांकन केले पाहिजे.

धोरणांचे मूल्यांकन

आमच्या साध्या उदाहरणात, रिकाम्या जागेवर उतरल्यास -1 चे मूल्य मिळेल. जेव्हा एजंट डायमंड रिवॉर्डसह एका जागेवर उतरतो तेव्हा त्यांना 10 चे मूल्य प्राप्त होईल. या मूल्यांचा वापर करून, आम्ही विविध धोरणांची तुलना करू शकतो. उपयुक्तता कार्य U.

आता वर पाहिलेल्या दोन धोरणांच्या उपयुक्ततेची तुलना करूया:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

परिणाम दाखवतात की पॉलिसी A हा पुरस्कार शोधण्याचा उत्तम मार्ग आहे. अशा प्रकारे, एजंट पॉलिसी बी पेक्षा पथ A चा वापर करेल.

एक्सप्लोरेशन विरुद्ध शोषण

मजबुतीकरण शिक्षणामध्ये एक्सप्लोरेशन विरुद्ध शोषण व्यापार-बंद समस्या ही एक दुविधा आहे ज्याचा सामना एजंटला निर्णय प्रक्रियेदरम्यान करावा लागतो.

एजंटांनी नवीन मार्ग किंवा पर्याय शोधण्यावर लक्ष केंद्रित केले पाहिजे की त्यांना आधीच माहित असलेल्या पर्यायांचे शोषण करणे सुरू ठेवावे?

एजंटने अन्वेषण करणे निवडल्यास, एजंटला एक चांगला पर्याय शोधण्याची शक्यता आहे, परंतु यामुळे वेळ आणि संसाधने वाया जाण्याचा धोका देखील असू शकतो. दुसरीकडे, जर एजंटने त्याला आधीच माहीत असलेल्या उपायाचा फायदा उठवायचा ठरवला, तर तो एक चांगला पर्याय गमावू शकतो.

व्यावहारिक अनुप्रयोग

येथे काही मार्ग आहेत एआय संशोधक वास्तविक-जगातील समस्यांचे निराकरण करण्यासाठी मजबुतीकरण शिक्षण मॉडेल लागू केले आहेत:

सेल्फ-ड्रायव्हिंग कारमध्ये मजबुतीकरण शिक्षण

सुरक्षितपणे आणि कार्यक्षमतेने गाडी चालवण्याची त्यांची क्षमता सुधारण्यासाठी सेल्फ-ड्रायव्हिंग कारवर मजबुतीकरण शिक्षण लागू केले गेले आहे. तंत्रज्ञान स्वायत्त कारना त्यांच्या चुकांमधून शिकण्यास आणि त्यांचे कार्यप्रदर्शन ऑप्टिमाइझ करण्यासाठी त्यांचे वर्तन सतत समायोजित करण्यास सक्षम करते.

सेल्फ-ड्रायव्हिंगसाठी वापरलेले मजबुतीकरण शिक्षण

उदाहरणार्थ, लंडनस्थित AI कंपनी वेव्ह स्वायत्त ड्रायव्हिंगसाठी सखोल मजबुतीकरण शिक्षण मॉडेल यशस्वीरित्या लागू केले आहे. त्यांच्या प्रयोगात, त्यांनी रिवॉर्ड फंक्शन वापरले जे वाहन चालक ऑनबोर्ड इनपुट न देता जास्तीत जास्त वेळ चालवते.

RL मॉडेल कारला पर्यावरणावर आधारित निर्णय घेण्यास मदत करतात, जसे की अडथळे टाळणे किंवा रहदारीमध्ये विलीन होणे. या मॉडेल्सना कारच्या आजूबाजूचे जटिल वातावरण मॉडेलला समजू शकेल अशा प्रातिनिधिक स्थितीत रूपांतरित करण्याचा मार्ग शोधणे आवश्यक आहे.

रोबोटिक्समध्ये मजबुतीकरण शिक्षण

संशोधक जटिल कार्ये शिकू शकणारे रोबोट विकसित करण्यासाठी मजबुतीकरण शिक्षण देखील वापरत आहेत. या आरएल मॉडेल्सद्वारे, रोबोट्स त्यांच्या वातावरणाचे निरीक्षण करू शकतात आणि त्यांच्या निरीक्षणांवर आधारित निर्णय घेऊ शकतात.

उदाहरणार्थ, बायपेडल रोबोट्स कसे शिकू शकतात हे शिकण्यास अनुमती देण्यासाठी मजबुतीकरण शिक्षण मॉडेल वापरण्यावर संशोधन केले गेले आहे. चाला त्यांच्या स्वत: च्या वर.

मजबुतीकरण शिक्षण रोबोटला चालायला शिकवते

संशोधक आरएल ही रोबोटिक्सच्या क्षेत्रातील प्रमुख पद्धत मानतात. मजबुतीकरण शिक्षण रोबोटिक एजंटना अत्याधुनिक क्रिया शिकण्यासाठी एक फ्रेमवर्क देते जे अन्यथा अभियंता करणे कठीण असू शकते.

गेमिंगमध्ये मजबुतीकरण शिक्षण

व्हिडिओ गेम कसे खेळायचे हे शिकण्यासाठी RL मॉडेल देखील वापरले गेले आहेत. एजंटना त्यांच्या चुकांमधून शिकण्यासाठी आणि गेममधील त्यांची कामगिरी सतत सुधारण्यासाठी सेट केले जाऊ शकते.

संशोधकांनी आधीच एजंट विकसित केले आहेत जे बुद्धिबळ, गो आणि पोकरसारखे खेळ खेळू शकतात. 2013 मध्ये, Deepmind मॉडेलला सुरवातीपासून अटारी गेम कसे खेळायचे हे शिकण्यास अनुमती देण्यासाठी डीप रीइन्फोर्समेंट लर्निंग वापरले.

बर्‍याच बोर्ड गेम आणि व्हिडिओ गेममध्ये मर्यादित अॅक्शन स्पेस आणि एक चांगले-परिभाषित ठोस लक्ष्य असते. हे गुणधर्म RL मॉडेलच्या फायद्यासाठी कार्य करतात. विजय मिळविण्यासाठी इष्टतम रणनीती जाणून घेण्यासाठी RL पद्धती लाखो सिम्युलेटेड गेममध्ये त्वरीत पुनरावृत्ती करू शकतात.

निष्कर्ष

चालणे शिकणे असो किंवा व्हिडिओ गेम कसे खेळायचे ते शिकणे असो, RL मॉडेल्स जटिल निर्णय घेण्याची आवश्यकता असलेल्या समस्यांचे निराकरण करण्यासाठी उपयुक्त AI फ्रेमवर्क असल्याचे सिद्ध झाले आहे.

तंत्रज्ञान विकसित होत असताना, संशोधक आणि विकासक दोघेही नवीन अनुप्रयोग शोधत राहतील जे मॉडेलच्या स्वयं-शिक्षण क्षमतेचा लाभ घेतील.

मजबुतीकरण शिक्षण कोणत्या व्यावहारिक अनुप्रयोगांमध्ये मदत करू शकते असे तुम्हाला वाटते?

मजबुतीकरण शिक्षण: एआय जे त्याच्या चुकांमधून शिकते

मजबुतीकरण शिक्षण म्हणजे काय?