सुदृढीकरण शिक्षा: AI जसले आफ्नो गल्तीहरूबाट सिक्छ

विषयसूची[लुकाउनुहोस्][देखाउनु]

सुदृढीकरण शिक्षा के हो?
एक साधारण उदाहरण: 4×4 ग्रिड+-
- नीतिहरू र पुरस्कारहरू
- अन्वेषण बनाम शोषण
व्यावहारिक अनुप्रयोगहरू+-
निष्कर्ष

कल्पना गरौं कि तपाईं रोबोटलाई कसरी हिड्ने भनेर सिकाउन खोज्दै हुनुहुन्छ। कम्प्यूटरलाई कसरी स्टक मूल्यहरू भविष्यवाणी गर्ने वा छविहरू वर्गीकृत गर्ने भनेर सिकाउने विपरीत, हामीसँग वास्तवमै ठूलो डेटासेट छैन जुन हामीले हाम्रो रोबोटलाई तालिम दिन प्रयोग गर्न सक्छौं।

यद्यपि यो तपाईलाई स्वाभाविक रूपमा आउन सक्छ, हिड्नु वास्तवमा एक धेरै जटिल कार्य हो। एक कदम हिड्दा सामान्यतया दर्जनौं विभिन्न मांसपेशीहरू सँगै काम गर्ने समावेश गर्दछ। एक ठाउँबाट अर्को ठाउँमा हिड्न प्रयोग गरिने प्रयास र प्रविधिहरू पनि विभिन्न कारकहरूमा निर्भर हुन्छन्, जसमा तपाईंले केही बोक्नुभएको छ वा त्यहाँ झुकाव वा अवरोधहरूको अन्य रूपहरू छन्।

यी जस्ता परिदृश्यहरूमा, हामी सुदृढीकरण शिक्षा वा RL भनेर चिनिने विधि प्रयोग गर्न सक्छौं। RL को साथ, तपाइँ तपाइँको मोडेलले समाधान गर्न चाहानु भएको एक विशेष लक्ष्य परिभाषित गर्न सक्नुहुन्छ र बिस्तारै मोडेललाई यसलाई कसरी पूरा गर्ने भनेर आफै सिक्न दिनुहोस्।

यस लेखमा, हामी सुदृढीकरण सिकाउने आधारभूत कुराहरू र वास्तविक संसारमा विभिन्न समस्याहरूमा RL ढाँचालाई कसरी लागू गर्न सक्छौं भनी अन्वेषण गर्नेछौं।

सुदृढीकरण शिक्षा के हो?

सुदृढीकरण शिक्षा को एक विशेष उपसेट को संदर्भित गर्दछ मेशिन सिकाइ जसले इच्छित व्यवहारलाई पुरस्कृत गरेर र अवांछित व्यवहारहरूलाई सजाय दिएर समाधान खोज्नमा केन्द्रित हुन्छ।

सुदृढीकरण शिक्षा ढाँचाको रेखाचित्र

पर्यवेक्षित सिकाइको विपरीत, सुदृढीकरण सिकाउने विधिमा सामान्यतया दिइएको इनपुटको लागि सही आउटपुट प्रदान गर्ने प्रशिक्षण डेटासेट हुँदैन। प्रशिक्षण डेटाको अभावमा, एल्गोरिदमले परीक्षण र त्रुटि मार्फत समाधान खोज्नुपर्छ। एल्गोरिथ्म, जसलाई हामी सामान्यतया एक को रूपमा सन्दर्भ गर्छौं एजेन्ट, सँग अन्तरक्रिया गरेर आफै समाधान खोज्नुपर्छ वातावरण.

अनुसन्धानकर्ताहरूले कुन विशेष नतिजामा निर्णय गर्छन् इनाम र एल्गोरिदम के गर्न सक्षम छ। हरेक कार्य एल्गोरिदम ले लिन्छ प्रतिक्रिया को केहि रूप प्राप्त हुनेछ कि एल्गोरिथ्म कति राम्रो गरिरहेको छ स्कोर। प्रशिक्षण प्रक्रियाको बखत, एल्गोरिथ्मले अन्ततः निश्चित समस्या समाधान गर्न इष्टतम समाधान फेला पार्नेछ।

एक साधारण उदाहरण: 4×4 ग्रिड

हामीले सुदृढीकरण सिकाइको साथ समाधान गर्न सक्ने समस्याको एउटा साधारण उदाहरण हेरौं।

मानौं हामीसँग हाम्रो वातावरणको रूपमा 4 × 4 ग्रिड छ। हाम्रो एजेन्टलाई केही अवरोधहरू सहित एक वर्गमा अनियमित रूपमा राखिएको छ। ग्रिडमा तीनवटा "पिट" अवरोधहरू समावेश हुनेछन् जुन बेवास्ता गर्नुपर्छ र एजेन्टले फेला पार्नु पर्ने एकल "हीरा" इनाम। हाम्रो वातावरणको पूर्ण विवरणलाई वातावरण भनिन्छ राज्य.

सुदृढीकरण सिकाइ एक एजेन्टमा निर्भर हुन्छ जसले सिमुलेटेड वातावरणसँग अन्तरक्रिया गर्दछ

हाम्रो RL मोडेलमा, हाम्रो एजेन्ट कुनै पनि छेउछाउको स्क्वायरमा सार्न सक्छ जबसम्म त्यहाँ कुनै अवरोधहरू छैनन्। दिइएको वातावरणमा सबै मान्य कार्यहरूको सेटलाई भनिन्छ कार्य ठाउँ। हाम्रो एजेन्टको लक्ष्य इनामको लागि छोटो बाटो खोज्नु हो।

एजेन्टसँग कार्य स्थान वा दिइएको अवस्थामा मान्य कार्यहरूको सेट छ

हाम्रो एजेन्टले हीराको बाटो पत्ता लगाउन सुदृढीकरण सिकाउने विधि प्रयोग गर्ने छ जसलाई कम्तिमा पनि कदम चाहिन्छ। प्रत्येक सही कदमले रोबोटलाई इनाम दिनेछ र प्रत्येक गलत कदमले रोबोटको इनाम घटाउनेछ। एजेन्ट हीरामा पुगेपछि मोडेलले कुल इनाम गणना गर्छ।

अब हामीले एजेन्ट र वातावरण परिभाषित गरिसकेका छौं, हामीले एजेन्टले यसको हालको अवस्था र वातावरणलाई ध्यानमा राखेर अर्को कारबाही गर्ने निर्धारण गर्न प्रयोग गर्ने नियमहरू पनि परिभाषित गर्नुपर्छ।

नीतिहरू र पुरस्कारहरू

सुदृढीकरण सिकाउने मोडेलमा, ए नीति एजेन्टले आफ्नो लक्ष्य हासिल गर्न प्रयोग गर्ने रणनीतिलाई जनाउँछ। एजेन्टको नीति भनेको एजेन्टको हालको अवस्था र वातावरणलाई ध्यानमा राखेर एजेन्टले अब के गर्नुपर्छ भन्ने निर्णय गर्छ।

कुन नीति इष्टतम छ भनेर हेर्न एजेन्टले सबै सम्भावित नीतिहरूको मूल्याङ्कन गर्नुपर्छ।

मूल्याङ्कन नीतिहरू

हाम्रो साधारण उदाहरणमा, खाली ठाउँमा अवतरण गर्दा -1 को मान फर्काउनेछ। जब एजेन्ट हीरा पुरस्कारको साथ स्पेसमा अवतरण गर्दछ, तिनीहरूले 10 को मूल्य प्राप्त गर्नेछन्। यी मानहरू प्रयोग गरेर, हामी विभिन्न नीतिहरू तुलना गर्न सक्छौं उपयोगिता प्रकार्य U.

अब माथि देखिएका दुई नीतिहरूको उपयोगिता तुलना गरौं:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

नतिजाहरूले देखाउँछन् कि नीति A पुरस्कार खोज्नको लागि उत्तम मार्ग हो। यसरी, एजेन्टले नीति B मा पथ A प्रयोग गर्नेछ।

अन्वेषण बनाम शोषण

सुदृढीकरण सिकाइमा अन्वेषण बनाम शोषण ट्रेड-अफ समस्या निर्णय प्रक्रियाको क्रममा एजेन्टले सामना गर्नुपर्ने दुविधा हो।

एजेन्टहरूले नयाँ मार्ग वा विकल्पहरू खोज्नमा ध्यान केन्द्रित गर्नुपर्छ वा तिनीहरूले पहिले नै थाहा भएका विकल्पहरूको शोषण जारी राख्नुपर्दछ?

यदि एजेन्टले अन्वेषण गर्न रोज्छ भने, एजेन्टको लागि राम्रो विकल्प खोज्ने सम्भावना छ, तर यसले समय र स्रोतहरू बर्बाद गर्ने जोखिम पनि हुन सक्छ। अर्कोतर्फ, यदि एजेन्टले पहिले नै थाहा भएको समाधानको शोषण गर्न रोज्छ भने, यसले राम्रो विकल्प गुमाउन सक्छ।

व्यावहारिक अनुप्रयोगहरू

यहाँ केही तरिकाहरू छन् एआई अनुसन्धानकर्ताहरू वास्तविक-विश्व समस्याहरू समाधान गर्न सुदृढीकरण सिकाउने मोडेलहरू लागू गरेका छन्:

स्व-ड्राइभिङ कारहरूमा सुदृढीकरण शिक्षा

सुरक्षित र कुशलतापूर्वक ड्राइभ गर्ने क्षमता सुधार गर्न स्व-ड्राइभिङ कारहरूमा सुदृढीकरण शिक्षा लागू गरिएको छ। टेक्नोलोजीले स्वायत्त कारहरूलाई तिनीहरूको गल्तीहरूबाट सिक्न र तिनीहरूको कार्यसम्पादनलाई अनुकूलन गर्न तिनीहरूको व्यवहारलाई निरन्तर समायोजन गर्न सक्षम बनाउँछ।

सेल्फ-ड्राइभिङको लागि प्रयोग गरिएको सुदृढीकरण शिक्षा

उदाहरणका लागि, लन्डनमा आधारित एआई कम्पनी वेभ स्वायत्त ड्राइभिङको लागि गहिरो सुदृढीकरण सिकाउने मोडेल सफलतापूर्वक लागू गरेको छ। तिनीहरूको प्रयोगमा, तिनीहरूले इनाम प्रकार्य प्रयोग गरे जसले सवारी चालकलाई इनपुट प्रदान नगरीकन सवारी चल्ने समयलाई अधिकतम बनाउँछ।

RL मोडलहरूले कारहरूलाई वातावरणमा आधारित निर्णयहरू लिन मद्दत गर्दछ, जस्तै अवरोधहरू बेवास्ता गर्न वा ट्राफिकमा मर्ज गर्न। यी मोडेलहरूले कार वरपरको जटिल वातावरणलाई मोडेलले बुझ्न सक्ने प्रतिनिधि राज्य स्थानमा रूपान्तरण गर्ने तरिका खोज्नुपर्छ।

रोबोटिक्समा सुदृढीकरण शिक्षा

अनुसन्धानकर्ताहरूले जटिल कार्यहरू सिक्न सक्ने रोबोटहरू विकास गर्न सुदृढीकरण सिकाइ पनि प्रयोग गर्दै आएका छन्। यी आरएल मोडेलहरू मार्फत, रोबोटहरूले तिनीहरूको वातावरण अवलोकन गर्न र तिनीहरूको अवलोकनमा आधारित निर्णयहरू गर्न सक्षम छन्।

उदाहरणका लागि, द्विपेडल रोबोटहरूलाई कसरी सिक्न अनुमति दिन सुदृढीकरण सिकाउने मोडेलहरू प्रयोग गर्ने बारे अनुसन्धान गरिएको छ। हिड्नुहोस् आफ्नै मा।

रोबोटलाई हिड्न सिकाउने सुदृढीकरण सिकाइ

अन्वेषकहरूले RL लाई रोबोटिक्सको क्षेत्रमा प्रमुख विधि मान्छन्। सुदृढीकरण सिकाइले रोबोट एजेन्टहरूलाई परिष्कृत कार्यहरू सिक्नको लागि एक रूपरेखा दिन्छ जुन अन्यथा इन्जिनियर गर्न गाह्रो हुन सक्छ।

गेमिङमा सुदृढीकरण शिक्षा

भिडियो गेमहरू कसरी खेल्ने भनेर सिक्नको लागि RL मोडेलहरू पनि प्रयोग गरिएको छ। एजेन्टहरू तिनीहरूका गल्तीहरूबाट सिक्न र खेलमा उनीहरूको प्रदर्शनलाई निरन्तर सुधार गर्न सेट अप गर्न सकिन्छ।

अन्वेषकहरूले चेस, गो र पोकर जस्ता खेलहरू खेल्न सक्ने एजेन्टहरू विकास गरिसकेका छन्। २०१३ मा, Deepmind एक मोडेललाई स्क्र्याचबाट अटारी गेमहरू कसरी खेल्ने भनेर सिक्न अनुमति दिनको लागि डीप रिइन्फोर्समेन्ट लर्निङ प्रयोग गरियो।

धेरै बोर्ड गेमहरू र भिडियो गेमहरूमा सीमित कार्य स्थान र राम्रोसँग परिभाषित ठोस लक्ष्य हुन्छ। यी विशेषताहरू RL मोडेलको फाइदामा काम गर्छन्। RL विधिहरूले विजय हासिल गर्नको लागि इष्टतम रणनीतिहरू सिक्नको लागि लाखौं सिमुलेटेड खेलहरू छिटो दोहोर्याउन सक्छ।

निष्कर्ष

यो हिड्ने तरिका सिक्ने होस् वा भिडियो गेमहरू कसरी खेल्ने भनेर सिक्ने होस्, RL मोडेलहरू जटिल निर्णय लिने आवश्यक पर्ने समस्याहरू समाधान गर्नका लागि उपयोगी AI फ्रेमवर्कहरू साबित भएका छन्।

टेक्नोलोजी विकसित हुँदै जाँदा, शोधकर्ताहरू र विकासकर्ताहरूले मोडेलको आत्म-शिक्षण क्षमताको फाइदा उठाउने नयाँ अनुप्रयोगहरू फेला पार्न जारी राख्नेछन्।

सुदृढीकरण सिकाइले मद्दत गर्न सक्छ भन्ने तपाईको विचारमा कुन व्यावहारिक अनुप्रयोगहरू छन्?

सुदृढीकरण शिक्षा: एआई जसले आफ्नो गल्तीहरूबाट सिक्छ

सुदृढीकरण शिक्षा के हो?