ሮቦትን እንዴት መራመድ እንደሚቻል ለማስተማር እየሞከሩ እንደሆነ እናስብ። ኮምፒዩተር የአክሲዮን ዋጋዎችን እንዴት እንደሚተነብይ ወይም ምስሎችን እንዴት እንደሚከፋፍል ከማስተማር በተቃራኒ ሮቦታችንን ለማሰልጠን የምንጠቀምበት ትልቅ ዳታ ስብስብ የለንም።
በተፈጥሮ ወደ እርስዎ ሊመጣ ቢችልም ፣ በእግር መሄድ በእውነቱ በጣም የተወሳሰበ እርምጃ ነው። አንድ እርምጃ በእግር መራመድ በደርዘን የሚቆጠሩ የተለያዩ ጡንቻዎች አንድ ላይ መሥራትን ያካትታል። ከአንዱ ቦታ ወደ ሌላ ቦታ ለመራመድ የምታደርገው ጥረት እና ቴክኒኮች በተለያዩ ነገሮች ላይ የተመካ ነው፣ ይህም አንድ ነገር ተሸክመህ ወይም ዝንባሌ ወይም ሌሎች መሰናክሎች መኖራቸውን ጨምሮ።
እንደነዚህ ባሉ ሁኔታዎች የማጠናከሪያ ትምህርት ወይም RL በመባል የሚታወቀውን ዘዴ መጠቀም እንችላለን. በ RL አማካኝነት ሞዴልዎ እንዲፈታ የሚፈልጉትን አንድ የተወሰነ ግብ መግለፅ እና ሞዴሉ እንዴት እንደሚፈፅመው ቀስ በቀስ እንዲማር ማድረግ ይችላሉ።
በዚህ ጽሑፍ ውስጥ የማጠናከሪያ ትምህርት መሰረታዊ ነገሮችን እና የ RL ማዕቀፍን በተለያዩ የገሃዱ ዓለም ችግሮች እንዴት መተግበር እንደምንችል እንመረምራለን።
የማጠናከሪያ ትምህርት ምንድን ነው?
የማጠናከሪያ ትምህርት የሚያመለክተው የተወሰነ ንዑስ ክፍልን ነው። የማሽን መማር የሚፈለጉትን ባህሪያት በመሸለም እና ያልተፈለጉ ባህሪያትን በመቅጣት መፍትሄዎችን በማፈላለግ ላይ ያተኩራል.
ክትትል ከሚደረግበት ትምህርት በተለየ የማጠናከሪያ ትምህርት ዘዴው በተለምዶ ለአንድ ግብአት ትክክለኛውን ውጤት የሚያቀርብ የሥልጠና ዳታ ስብስብ የለውም። የሥልጠና መረጃ በማይኖርበት ጊዜ ስልተ ቀመር በሙከራ እና በስህተት መፍትሄ ማግኘት አለበት። በተለምዶ እንደ አንድ የምንለው ስልተ ቀመር ወኪል, ከ ጋር በመገናኘት በራሱ መፍትሄ መፈለግ አለበት አካባቢ.
ተመራማሪዎች ምን ልዩ ውጤቶች እንደሚገኙ ይወስናሉ ሽልማት እና አልጎሪዝም ምን ማድረግ እንደሚችል. እያንዳንዱ እርምጃ አልጎሪዝም የሚወስደው ስልተ-ቀመር ምን ያህል በጥሩ ሁኔታ እየሰራ እንደሆነ የሚያሳይ አንዳንድ አይነት ግብረመልሶችን ይቀበላል። በስልጠናው ሂደት ውስጥ, ስልተ ቀመር አንድን ችግር ለመፍታት በመጨረሻ ጥሩውን መፍትሄ ያገኛል.
ቀላል ምሳሌ፡ 4×4 ፍርግርግ
በማጠናከሪያ ትምህርት ልንፈታው የምንችለውን ቀላል ምሳሌ እንመልከት።
እንደ አካባቢያችን 4×4 ፍርግርግ አለን እንበል። ወኪላችን ከጥቂት መሰናክሎች ጋር በአንድ ካሬ ውስጥ በዘፈቀደ ተቀምጧል። ፍርግርግ መወገድ ያለባቸው ሶስት "ጉድጓድ" መሰናክሎች እና አንድ "አልማዝ" ሽልማት ተወካዩ ማግኘት አለበት. የአካባቢያችን ሙሉ መግለጫ የአካባቢ አካባቢ በመባል ይታወቃል ግዛት.
በእኛ አርኤል አምሳያ ወኪላችን ምንም የሚከለክላቸው ምንም መሰናክሎች እስካልተገኘ ድረስ በአቅራቢያው ወዳለው ካሬ መሄድ ይችላል። በአንድ የተወሰነ አካባቢ ውስጥ ያሉ የሁሉም ትክክለኛ ድርጊቶች ስብስብ በመባል ይታወቃል የድርጊት ቦታ. የወኪላችን አላማ ለሽልማቱ አጭሩ መንገድ መፈለግ ነው።
ወኪላችን በትንሹ የእርምጃዎች መጠን የሚጠይቀውን የአልማዝ መንገድ ለማግኘት የማጠናከሪያ ትምህርት ዘዴን ይጠቀማል። እያንዳንዱ ትክክለኛ እርምጃ ለሮቦት ሽልማት ይሰጣል እና እያንዳንዱ የተሳሳተ እርምጃ የሮቦትን ሽልማት ይቀንሳል። ሞዴሉ ወኪሉ አልማዝ ከደረሰ በኋላ አጠቃላይ ሽልማቱን ያሰላል።
አሁን ወኪሉን እና አካባቢውን ከገለፅን በኋላ ተወካዩ አሁን ካለበት ሁኔታ እና አካባቢ አንፃር የሚወስደውን ቀጣይ እርምጃ ለመወሰን የምንጠቀምባቸውን ህጎች መግለፅ አለብን።
ፖሊሲዎች እና ሽልማቶች
በማጠናከሪያ ትምህርት ሞዴል፣ ሀ መምሪያ አንድ ወኪል ግባቸውን ለማሳካት የሚጠቀምበትን ስልት ያመለክታል። የወኪሉ ፖሊሲ አሁን ካለው የወካዩ ሁኔታ እና ከአካባቢው ሁኔታ አንጻር ወካዩ ምን ማድረግ እንዳለበት የሚወስነው ነው።
የትኛው ፖሊሲ የተሻለ እንደሆነ ለማወቅ ወኪሉ ሁሉንም ሊሆኑ የሚችሉ ፖሊሲዎችን መገምገም አለበት።
በቀላል ምሳሌአችን፣ ባዶ ቦታ ላይ ማረፍ የ-1 እሴትን ይመልሳል። ተወካዩ የአልማዝ ሽልማት ያለው ቦታ ላይ ሲያርፍ 10 እሴት ይቀበላሉ። እነዚህን እሴቶች በመጠቀም፣ የተለያዩ ፖሊሲዎችን በመጠቀም ማወዳደር እንችላለን። የመገልገያ ተግባር U.
አሁን ከላይ የሚታዩትን የሁለቱን ፖሊሲዎች ጥቅም እናወዳድር፡-
U(A) = -1 - 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
ውጤቶቹ እንደሚያሳዩት ፖሊሲ A ሽልማቱን ለማግኘት የተሻለው መንገድ ነው። ስለዚህ ወኪሉ ከፖሊሲ ቢ በላይ ዱካ A ይጠቀማል።
አሰሳ vs ብዝበዛ
በማጠናከሪያ ትምህርት ውስጥ ያለው የአሰሳ እና የብዝበዛ ንግድ-ኦፍ ችግር አንድ ተወካይ በውሳኔው ሂደት ሊያጋጥመው የሚገባ አጣብቂኝ ነው።
ወኪሎች አዳዲስ መንገዶችን ወይም አማራጮችን በማሰስ ላይ ማተኮር አለባቸው ወይንስ የሚያውቁትን አማራጮች መጠቀማቸውን መቀጠል አለባቸው?
ተወካዩ ለመመርመር ከመረጠ፣ ተወካዩ የተሻለ አማራጭ እንዲያገኝ እድል አለ፣ ነገር ግን ጊዜንና ሃብትን ማባከን አደጋ ላይ ሊጥል ይችላል። በሌላ በኩል ተወካዩ የሚያውቀውን መፍትሄ ለመጠቀም ከመረጠ የተሻለ አማራጭ ሊያጣ ይችላል።
ተግባራዊ መተግበሪያዎች
አንዳንድ መንገዶች እነኚሁና። AI ተመራማሪዎች የገሃዱ ዓለም ችግሮችን ለመፍታት የማጠናከሪያ ትምህርት ሞዴሎችን ተግባራዊ አድርገዋል፡-
ራስን በሚነዱ መኪናዎች ውስጥ የማጠናከሪያ ትምህርት
በአስተማማኝ እና በብቃት የመንዳት ችሎታቸውን ለማሻሻል የማጠናከሪያ ትምህርት በራስ በሚነዱ መኪናዎች ላይ ተተግብሯል። ቴክኖሎጂው ራሳቸውን የቻሉ መኪኖች ከስህተታቸው እንዲማሩ እና አፈጻጸማቸውን ለማመቻቸት ባህሪያቸውን ያለማቋረጥ እንዲያስተካክሉ ያስችላቸዋል።
ለምሳሌ, በለንደን ላይ የተመሰረተው AI ኩባንያ ዌይቭ ራስን በራስ ለማሽከርከር ጥልቅ የማጠናከሪያ ትምህርት ሞዴልን በተሳካ ሁኔታ ተግባራዊ አድርጓል። በሙከራያቸው፣ በቦርዱ ላይ ያለው ሹፌር ግብዓት ሳያቀርብ ተሽከርካሪው የሚንቀሳቀሰውን ጊዜ ከፍ የሚያደርግ የሽልማት ተግባር ተጠቅመዋል።
የ RL ሞዴሎች መኪኖች በአካባቢው ላይ ተመስርተው ውሳኔዎችን እንዲወስኑ ይረዳሉ, ለምሳሌ እንቅፋቶችን ማስወገድ ወይም ወደ ትራፊክ መቀላቀል. እነዚህ ሞዴሎች በመኪና ዙሪያ ያለውን ውስብስብ አካባቢ ሞዴሉ ሊረዳው ወደሚችለው ወካይ ግዛት ቦታ ለመቀየር መንገድ መፈለግ አለባቸው።
በሮቦቲክስ ውስጥ የማጠናከሪያ ትምህርት
ተመራማሪዎች ውስብስብ ስራዎችን የሚማሩ ሮቦቶችን ለማምረት የማጠናከሪያ ትምህርትን ሲጠቀሙ ቆይተዋል። በእነዚህ የ RL ሞዴሎች አማካኝነት ሮቦቶች አካባቢያቸውን መከታተል እና በአስተያየታቸው መሰረት ውሳኔዎችን ማድረግ ይችላሉ.
ለምሳሌ፣ ሁለት ፔዳል ሮቦቶች እንዴት እንደሚማሩ ለማስተማር የማጠናከሪያ ትምህርት ሞዴሎችን በመጠቀም ላይ ጥናት ተደርጓል የእግር ጉዞ በራሳቸው።
ተመራማሪዎች RL በሮቦቲክስ መስክ ውስጥ ቁልፍ ዘዴ አድርገው ይመለከቱታል. የማጠናከሪያ ትምህርት ለሮቦቲክ ወኪሎች በሌላ መንገድ ለመሐንዲስ አስቸጋሪ ሊሆኑ የሚችሉ የተራቀቁ ድርጊቶችን እንዲማሩ ማዕቀፍ ይሰጣቸዋል።
የማጠናከሪያ ትምህርት በጨዋታ
የቪዲዮ ጨዋታዎችን መጫወት ለመማር የ RL ሞዴሎችም ጥቅም ላይ ውለዋል። ወኪሎች ከስህተታቸው እንዲማሩ እና በጨዋታው ውስጥ ያላቸውን አፈፃፀም ያለማቋረጥ እንዲያሻሽሉ ማዋቀር ይችላሉ።
ተመራማሪዎች እንደ ቼዝ፣ ሂድ እና ፖከር ያሉ ጨዋታዎችን መጫወት የሚችሉ ወኪሎችን ፈጥረዋል። በ2013 ዓ.ም. Deepmind ሞዴል የአታሪ ጨዋታዎችን ከባዶ መጫወት እንዲችል ለመፍቀድ ጥልቅ ማጠናከሪያ ትምህርትን ተጠቅሟል።
ብዙ የቦርድ ጨዋታዎች እና የቪዲዮ ጨዋታዎች የተወሰነ የተግባር ቦታ እና በሚገባ የተገለጸ ተጨባጭ ግብ አላቸው። እነዚህ ባህሪያት ለ RL ሞዴል ጥቅም ይሰራሉ. የ RL ዘዴዎች በሚሊዮን የሚቆጠሩ አስመሳይ ጨዋታዎችን በፍጥነት መድገም ይችላሉ።
መደምደሚያ
እንዴት መራመድ እንደሚቻል መማር ወይም የቪዲዮ ጨዋታዎችን መጫወት መማር, RL ሞዴሎች ውስብስብ ውሳኔን የሚጠይቁ ችግሮችን ለመፍታት ጠቃሚ AI ማዕቀፎች እንደሆኑ ተረጋግጧል.
ቴክኖሎጂው እያደገ ሲሄድ ተመራማሪዎችም ሆኑ ገንቢዎች በአምሳያው ራስን የማስተማር ችሎታ የሚጠቀሙ አዳዲስ መተግበሪያዎችን ማግኘታቸውን ይቀጥላሉ።
የማጠናከሪያ ትምህርት በየትኞቹ ተግባራዊ መተግበሪያዎች ሊረዳ ይችላል ብለው ያስባሉ?
መልስ ይስጡ