सुदृढीकरण सीखना: एआई जो अपनी गलतियों से सीखता है

विषय - सूची[छिपाना][प्रदर्शन]

सुदृढीकरण सीखना क्या है?
एक साधारण उदाहरण: 4×4 ग्रिड+-
- नीतियां और पुरस्कार
- अन्वेषण बनाम शोषण
व्यावहारिक अनुप्रयोगों+-
निष्कर्ष

आइए कल्पना करें कि आप एक रोबोट को चलना सिखाने की कोशिश कर रहे हैं। कंप्यूटर को स्टॉक की कीमतों की भविष्यवाणी करने या छवियों को वर्गीकृत करने के तरीके के विपरीत, हमारे पास वास्तव में एक बड़ा डेटासेट नहीं है जिसका उपयोग हम अपने रोबोट को प्रशिक्षित करने के लिए कर सकें।

हालांकि यह आपको स्वाभाविक रूप से आ सकता है, चलना वास्तव में एक बहुत ही जटिल क्रिया है। एक कदम चलने में आमतौर पर दर्जनों अलग-अलग मांसपेशियां एक साथ काम करती हैं। एक जगह से दूसरी जगह चलने के लिए इस्तेमाल किए जाने वाले प्रयास और तकनीक भी कई तरह के कारकों पर निर्भर करते हैं, जिसमें यह भी शामिल है कि क्या आप कुछ लेकर जा रहे हैं या कोई झुकाव है या अन्य प्रकार की बाधाएं हैं।

ऐसे परिदृश्यों में, हम रीइन्फोर्समेंट लर्निंग या आरएल नामक एक विधि का उपयोग कर सकते हैं। आरएल के साथ, आप एक विशिष्ट लक्ष्य को परिभाषित कर सकते हैं जिसे आप चाहते हैं कि आपका मॉडल हल करे और धीरे-धीरे मॉडल को अपने आप सीखने दें कि इसे कैसे पूरा किया जाए।

इस लेख में, हम सुदृढीकरण सीखने की मूल बातें तलाशेंगे और हम वास्तविक दुनिया में विभिन्न समस्याओं के लिए आरएल ढांचे को कैसे लागू कर सकते हैं।

सुदृढीकरण सीखना क्या है?

सुदृढीकरण सीखने का एक विशेष उपसमुच्चय को संदर्भित करता है यंत्र अधिगम जो वांछित व्यवहारों को पुरस्कृत करके और अवांछित व्यवहारों को दंडित करके समाधान खोजने पर केंद्रित है।

सुदृढीकरण सीखने के ढांचे का आरेख

पर्यवेक्षित शिक्षण के विपरीत, सुदृढीकरण सीखने की पद्धति में आमतौर पर एक प्रशिक्षण डेटासेट नहीं होता है जो किसी दिए गए इनपुट के लिए सही आउटपुट प्रदान करता है। प्रशिक्षण डेटा की अनुपस्थिति में, एल्गोरिथम को परीक्षण और त्रुटि के माध्यम से समाधान खोजना होगा। एल्गोरिथ्म, जिसे हम आम तौर पर एक के रूप में संदर्भित करते हैं एजेंटके साथ बातचीत करके ही समाधान खोजना चाहिए वातावरण.

शोधकर्ता यह तय करते हैं कि किस विशेष परिणाम के लिए इनाम और एल्गोरिदम क्या करने में सक्षम है। प्रत्येक कार्य एल्गोरिदम लेता है कुछ प्रकार की प्रतिक्रिया प्राप्त करेगा जो स्कोर करता है कि एल्गोरिदम कितना अच्छा काम कर रहा है। प्रशिक्षण प्रक्रिया के दौरान, एल्गोरिथ्म अंततः एक निश्चित समस्या को हल करने के लिए इष्टतम समाधान ढूंढेगा।

एक साधारण उदाहरण: 4×4 ग्रिड

आइए एक समस्या का एक सरल उदाहरण देखें जिसे हम सुदृढीकरण सीखने के साथ हल कर सकते हैं।

मान लीजिए कि हमारे पर्यावरण के रूप में हमारे पास 4×4 ग्रिड है। हमारे एजेंट को कुछ बाधाओं के साथ एक वर्ग में बेतरतीब ढंग से रखा गया है। ग्रिड में तीन "गड्ढे" बाधाएँ होंगी जिनसे बचना चाहिए और एक "हीरा" इनाम जो एजेंट को खोजना होगा। हमारे पर्यावरण का पूरा विवरण पर्यावरण के रूप में जाना जाता है राज्य.

सुदृढीकरण सीखना एक ऐसे एजेंट पर निर्भर करता है जो एक सिम्युलेटेड वातावरण के साथ इंटरैक्ट करता है

हमारे आरएल मॉडल में, हमारा एजेंट किसी भी निकटवर्ती वर्ग में तब तक जा सकता है जब तक कि उन्हें रोकने वाली कोई बाधा न हो। किसी दिए गए वातावरण में सभी मान्य क्रियाओं के सेट को कहा जाता है क्रिया स्थान. हमारे एजेंट का लक्ष्य इनाम के लिए सबसे छोटा रास्ता खोजना है।

एजेंट के पास एक क्रिया स्थान या किसी दिए गए राज्य में मान्य क्रियाओं का सेट होता है

हमारे एजेंट हीरे के लिए पथ खोजने के लिए सुदृढीकरण सीखने की विधि का उपयोग करेंगे जिसके लिए कम से कम चरणों की आवश्यकता होती है। प्रत्येक सही कदम रोबोट को इनाम देगा और प्रत्येक गलत कदम रोबोट के इनाम को घटा देगा। एजेंट के हीरे तक पहुंचने के बाद मॉडल कुल इनाम की गणना करता है।

अब जबकि हमने एजेंट और पर्यावरण को परिभाषित कर लिया है, हमें उन नियमों को भी परिभाषित करना चाहिए जिनका उपयोग एजेंट अपनी वर्तमान स्थिति और पर्यावरण को देखते हुए अगली कार्रवाई निर्धारित करने के लिए करेगा।

नीतियां और पुरस्कार

सुदृढीकरण सीखने के मॉडल में, ए नीति एक एजेंट द्वारा अपने लक्ष्यों को पूरा करने के लिए उपयोग की जाने वाली रणनीति को संदर्भित करता है। एजेंट की नीति वह है जो यह तय करती है कि एजेंट की वर्तमान स्थिति और उसके परिवेश को देखते हुए एजेंट को आगे क्या करना चाहिए।

एजेंट को यह देखने के लिए सभी संभावित नीतियों का मूल्यांकन करना चाहिए कि कौन सी नीति इष्टतम है।

नीतियों का मूल्यांकन

हमारे सरल उदाहरण में, खाली जगह पर उतरने से -1 का मान वापस आएगा। जब एजेंट हीरे के इनाम वाले स्थान पर उतरता है, तो उसे 10 का मूल्य प्राप्त होगा। इन मूल्यों का उपयोग करके, हम एक का उपयोग करके विभिन्न नीतियों की तुलना कर सकते हैं। उपयोगिता समारोह U.

आइए अब ऊपर देखी गई दो नीतियों की उपयोगिता की तुलना करें:

यू (ए) = -1 - 1 -1 + 10 = 7

यू (बी) = -1 - 1 - 1 - 1 - 1 + 10 = 5

नतीजे बताते हैं कि पॉलिसी ए इनाम पाने का बेहतर तरीका है। इस प्रकार, एजेंट पॉलिसी बी पर पाथ ए का उपयोग करेगा।

अन्वेषण बनाम शोषण

सुदृढीकरण सीखने में अन्वेषण बनाम शोषण व्यापार-बंद समस्या एक दुविधा है जिसका एक एजेंट को निर्णय प्रक्रिया के दौरान सामना करना चाहिए।

क्या एजेंटों को नए रास्ते या विकल्प तलाशने पर ध्यान देना चाहिए या क्या उन्हें उन विकल्पों का फायदा उठाना जारी रखना चाहिए जिन्हें वे पहले से जानते हैं?

यदि एजेंट एक्सप्लोर करना चुनता है, तो एजेंट के लिए एक बेहतर विकल्प खोजने की संभावना है, लेकिन इससे समय और संसाधन बर्बाद होने का जोखिम भी हो सकता है। दूसरी ओर, यदि एजेंट उस समाधान का फायदा उठाना चुनता है जिसे वह पहले से जानता है, तो वह एक बेहतर विकल्प से चूक सकता है।

व्यावहारिक अनुप्रयोगों

ये रहे कुछ तरीके एआई शोधकर्ता वास्तविक दुनिया की समस्याओं को हल करने के लिए सुदृढीकरण सीखने के मॉडल लागू किए हैं:

स्व-ड्राइविंग कारों में सुदृढीकरण सीखना

सुरक्षित और कुशलता से ड्राइव करने की उनकी क्षमता में सुधार करने के लिए सेल्फ-ड्राइविंग कारों पर रीइन्फोर्समेंट लर्निंग लागू की गई है। प्रौद्योगिकी स्वायत्त कारों को उनकी गलतियों से सीखने और उनके प्रदर्शन को अनुकूलित करने के लिए लगातार उनके व्यवहार को समायोजित करने में सक्षम बनाती है।

स्व-ड्राइविंग के लिए उपयोग किया जाने वाला सुदृढीकरण सीखना

उदाहरण के लिए, लंदन स्थित एआई कंपनी वेव स्वायत्त ड्राइविंग के लिए गहन सुदृढीकरण सीखने के मॉडल को सफलतापूर्वक लागू किया है। अपने प्रयोग में, उन्होंने एक रिवार्ड फंक्शन का उपयोग किया, जो उस समय को अधिकतम करता है, जब वाहन ड्राइवर के बिना इनपुट प्रदान किए चलता है।

आरएल मॉडल कारों को पर्यावरण के आधार पर निर्णय लेने में भी मदद करते हैं, जैसे बाधाओं से बचना या यातायात में विलय करना। इन मॉडलों को एक कार के आसपास के जटिल वातावरण को एक प्रतिनिधि राज्य स्थान में बदलने का एक तरीका खोजना होगा जिसे मॉडल समझ सके।

रोबोटिक्स में सुदृढीकरण सीखना

शोधकर्ता रोबोट विकसित करने के लिए सुदृढीकरण सीखने का भी उपयोग कर रहे हैं जो जटिल कार्यों को सीख सकते हैं। इन आरएल मॉडलों के माध्यम से, रोबोट अपने पर्यावरण का निरीक्षण करने और उनकी टिप्पणियों के आधार पर निर्णय लेने में सक्षम होते हैं।

उदाहरण के लिए, द्विपाद रोबोटों को यह सीखने की अनुमति देने के लिए सुदृढीकरण सीखने के मॉडल का उपयोग करने पर शोध किया गया है चलना अपने दम पर।

सुदृढीकरण सीखना एक रोबोट को चलना सिखाना

शोधकर्ता आरएल को रोबोटिक्स के क्षेत्र में एक महत्वपूर्ण तरीका मानते हैं। सुदृढीकरण सीखने से रोबोटिक एजेंटों को परिष्कृत कार्यों को सीखने के लिए एक ढांचा मिलता है जो इंजीनियर के लिए अन्यथा कठिन हो सकता है।

गेमिंग में सुदृढीकरण सीखना

वीडियो गेम कैसे खेलें सीखने के लिए आरएल मॉडल का भी उपयोग किया गया है। एजेंटों को उनकी गलतियों से सीखने और खेल में लगातार अपने प्रदर्शन में सुधार करने के लिए स्थापित किया जा सकता है।

शोधकर्ताओं ने पहले ही ऐसे एजेंट विकसित कर लिए हैं जो शतरंज, गो और पोकर जैसे खेल खेल सकते हैं। 2013 में, Deepmind डीप रीइन्फोर्समेंट लर्निंग का इस्तेमाल किया ताकि एक मॉडल स्क्रैच से अटारी गेम खेलना सीख सके।

कई बोर्ड गेम और वीडियो गेम में एक सीमित एक्शन स्पेस और एक अच्छी तरह से परिभाषित ठोस लक्ष्य होता है। ये लक्षण आरएल मॉडल के लाभ के लिए काम करते हैं। जीत हासिल करने के लिए इष्टतम रणनीतियों को सीखने के लिए आरएल तरीके लाखों सिम्युलेटेड गेम्स पर जल्दी से पुनरावृति कर सकते हैं।

निष्कर्ष

चाहे वह चलना सीख रहा हो या वीडियो गेम खेलना सीख रहा हो, आरएल मॉडल उन समस्याओं को हल करने के लिए उपयोगी एआई फ्रेमवर्क साबित हुए हैं जिनके लिए जटिल निर्णय लेने की आवश्यकता होती है।

जैसे-जैसे तकनीक विकसित होती जा रही है, वैसे-वैसे शोधकर्ता और विकासकर्ता दोनों नए अनुप्रयोगों की खोज करते रहेंगे जो मॉडल की स्व-शिक्षण क्षमता का लाभ उठाते हैं।

आपको क्या लगता है कि सुदृढीकरण सीखने से कौन से व्यावहारिक अनुप्रयोग मदद कर सकते हैं?

सुदृढीकरण सीखना: एआई जो अपनी गलतियों से सीखता है

सुदृढीकरण सीखना क्या है?