განმტკიცების სწავლა: AI, რომელიც სწავლობს თავის შეცდომებზე

სარჩევი[დამალვა][ჩვენება]

რა არის განმტკიცების სწავლა?
მარტივი მაგალითი: 4×4 ბადე+-
- პოლიტიკა და ჯილდოები
- კვლევა ექსპლუატაციის წინააღმდეგ
პრაქტიკული პროგრამები+-
დასკვნა

წარმოვიდგინოთ, რომ თქვენ ცდილობთ რობოტს ასწავლოთ სიარული. განსხვავებით კომპიუტერის სწავლებისგან, თუ როგორ უნდა იწინასწარმეტყველოთ აქციების ფასები ან დაალაგოთ სურათები, ჩვენ ნამდვილად არ გვაქვს დიდი მონაცემთა ბაზა, რომელიც შეგვიძლია გამოვიყენოთ ჩვენი რობოტის მოსამზადებლად.

მიუხედავად იმისა, რომ ეს შეიძლება ბუნებრივად მოგივიდეს, სიარული სინამდვილეში ძალიან რთული მოქმედებაა. ნაბიჯის სიარული, როგორც წესი, მოიცავს ათობით სხვადასხვა კუნთის ერთად მუშაობას. ერთი ადგილიდან მეორეზე სიარულის ძალისხმევა და ტექნიკა ასევე დამოკიდებულია მრავალ ფაქტორზე, მათ შორის, ატარებთ თუ არა რაიმეს, არის თუ არა დახრილობა ან სხვა სახის დაბრკოლებები.

ასეთ სცენარებში ჩვენ შეგვიძლია გამოვიყენოთ მეთოდი, რომელიც ცნობილია როგორც განმტკიცების სწავლა ან RL. RL-ით შეგიძლიათ განსაზღვროთ კონკრეტული მიზანი, რომლის გადაჭრაც გსურთ თქვენს მოდელმა და თანდათანობით მისცეთ საშუალება მოდელს თავად ისწავლოს როგორ მიაღწიოს მას.

ამ სტატიაში ჩვენ განვიხილავთ განმამტკიცებელი სწავლის საფუძვლებს და როგორ შეგვიძლია გამოვიყენოთ RL ჩარჩო რეალურ სამყაროში არსებულ სხვადასხვა პრობლემებზე.

რა არის განმტკიცების სწავლა?

განმტკიცების სწავლა ეხება კონკრეტულ ქვეჯგუფს მანქანა სწავლის რომელიც ორიენტირებულია გადაწყვეტილებების პოვნაზე სასურველი ქცევების დაჯილდოებით და არასასურველი ქცევების დასჯით.

განმამტკიცებელი სასწავლო ჩარჩოს დიაგრამა

კონტროლის ქვეშ მყოფი სწავლისგან განსხვავებით, განმამტკიცებელი სწავლის მეთოდს, როგორც წესი, არ გააჩნია სასწავლო მონაცემთა ნაკრები, რომელიც უზრუნველყოფს სწორ გამომავალს მოცემული შეყვანისთვის. ტრენინგის მონაცემების არარსებობის შემთხვევაში, ალგორითმმა უნდა მოძებნოს გამოსავალი ცდისა და შეცდომის გზით. ალგორითმი, რომელსაც ჩვენ ჩვეულებრივ ვუწოდებთ, როგორც ან აგენტი, უნდა მოძებნოს გამოსავალი თავისთავად გარემოს.

მკვლევარები წყვეტენ კონკრეტულ შედეგებს დააჯილდოებს და რისი გაკეთებაც შეუძლია ალგორითმს. ყოველი აქცია ალგორითმი იღებს რაიმე სახის უკუკავშირს, რომელიც აფასებს რამდენად კარგად მუშაობს ალგორითმი. ტრენინგის პროცესში ალგორითმი საბოლოოდ იპოვის ოპტიმალურ გადაწყვეტას გარკვეული პრობლემის გადასაჭრელად.

მარტივი მაგალითი: 4×4 ბადე

მოდით შევხედოთ პრობლემის მარტივ მაგალითს, რომლის გადაჭრაც შეგვიძლია განმამტკიცებელი სწავლით.

დავუშვათ, რომ ჩვენ გვაქვს 4×4 ბადე, როგორც ჩვენი გარემო. ჩვენი აგენტი მოთავსებულია შემთხვევით ერთ-ერთ მოედანზე რამდენიმე დაბრკოლებასთან ერთად. ბადე უნდა შეიცავდეს სამ „ორმოს“ დაბრკოლებას, რომლებიც თავიდან უნდა იქნას აცილებული და ერთი „ბრილიანტის“ ჯილდო, რომელიც აგენტმა უნდა მოიძიოს. ჩვენი გარემოს სრული აღწერა ცნობილია როგორც გარემო იყო.

განმტკიცების სწავლა ეყრდნობა აგენტს, რომელიც ურთიერთქმედებს სიმულაციურ გარემოსთან

ჩვენს RL მოდელში, ჩვენს აგენტს შეუძლია გადავიდეს ნებისმიერ მიმდებარე მოედანზე, სანამ არ არსებობს რაიმე დაბრკოლება, რომელიც მათ ბლოკავს. მოცემულ გარემოში ყველა მოქმედი მოქმედების ერთობლიობა ცნობილია, როგორც სამოქმედო სივრცე. ჩვენი აგენტის მიზანია იპოვოთ უმოკლესი გზა ჯილდოსკენ.

აგენტს აქვს სამოქმედო სივრცე ან მოქმედი მოქმედებების ნაკრები მოცემულ მდგომარეობაში

ჩვენი აგენტი გამოიყენებს გაძლიერების სწავლის მეთოდს ალმასისკენ მიმავალი გზის მოსაძებნად, რომელიც მინიმუმ ნაბიჯებს მოითხოვს. ყოველი სწორი ნაბიჯი მისცემს რობოტს ჯილდოს და ყოველი არასწორი ნაბიჯი გამოაკლებს ჯილდოს რობოტს. მოდელი ითვლის ჯამურ ჯილდოს მას შემდეგ, რაც აგენტი მიაღწევს ბრილიანტს.

ახლა, როდესაც ჩვენ განვსაზღვრეთ აგენტი და გარემო, ასევე უნდა განვსაზღვროთ წესები, რომლებიც უნდა გამოვიყენოთ შემდეგი მოქმედების დასადგენად, რომელსაც აგენტი განახორციელებს მისი ამჟამინდელი მდგომარეობისა და გარემოს გათვალისწინებით.

პოლიტიკა და ჯილდოები

განმამტკიცებელი სწავლის მოდელში ა პოლიტიკა ეხება აგენტის მიერ გამოყენებული სტრატეგიას მათი მიზნების მისაღწევად. აგენტის პოლიტიკა არის ის, რაც წყვეტს რა უნდა გააკეთოს აგენტმა შემდგომში აგენტის ამჟამინდელი მდგომარეობისა და მისი გარემოს გათვალისწინებით.

აგენტმა უნდა შეაფასოს ყველა შესაძლო პოლიტიკა, რათა ნახოს რომელი პოლიტიკაა ოპტიმალური.

პოლიტიკის შეფასება

ჩვენს მარტივ მაგალითში, ცარიელ ადგილას დაშვება დააბრუნებს მნიშვნელობას -1. როდესაც აგენტი დაეშვება ბრილიანტის ჯილდოს მქონე სივრცეში, ისინი მიიღებენ 10 მნიშვნელობას. ამ მნიშვნელობების გამოყენებით, ჩვენ შეგვიძლია შევადაროთ სხვადასხვა პოლიტიკა სასარგებლო ფუნქცია U.

მოდით შევადაროთ ზემოთ ნახსენები ორი პოლიტიკის სარგებლიანობა:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

შედეგები აჩვენებს, რომ პოლიტიკა A არის უკეთესი გზა ჯილდოს მოსაძებნად. ამრიგად, აგენტი გამოიყენებს გზას A-ს პოლიტიკაზე B.

კვლევა ექსპლუატაციის წინააღმდეგ

შესწავლა და ექსპლუატაციის ურთიერთგაცვლის პრობლემა განმტკიცების სწავლაში არის დილემა, რომელსაც აგენტი უნდა შეექმნას გადაწყვეტილების მიღების პროცესში.

უნდა გაამახვილონ თუ არა აგენტებმა ახალი გზების ან ვარიანტების შესწავლაზე, თუ უნდა გააგრძელონ იმ ვარიანტების გამოყენება, რომლებიც უკვე იციან?

თუ აგენტი ირჩევს კვლევას, არსებობს შესაძლებლობა, რომ აგენტმა მოძებნოს უკეთესი ვარიანტი, მაგრამ ამან შეიძლება ასევე გამოიწვიოს დროისა და რესურსების დაკარგვა. მეორეს მხრივ, თუ აგენტი ირჩევს გამოიყენოს გამოსავალი, რომელიც მან უკვე იცის, მან შეიძლება გამოტოვოს უკეთესი ვარიანტი.

პრაქტიკული პროგრამები

აქ არის რამდენიმე გზა AI მკვლევარები გამოიყენეს განმამტკიცებელი სწავლის მოდელები რეალური პრობლემების გადასაჭრელად:

გაძლიერების სწავლა თვითმართველ მანქანებში

გაძლიერების სწავლა გამოყენებული იქნა თვითმართვადი მანქანებზე, რათა გაუმჯობესდეს მათი უსაფრთხო და ეფექტურად მართვის უნარი. ტექნოლოგია საშუალებას აძლევს ავტონომიურ მანქანებს ისწავლონ შეცდომებზე და მუდმივად შეცვალონ თავიანთი ქცევა მათი მუშაობის ოპტიმიზაციის მიზნით.

გაძლიერებული სწავლა, რომელიც გამოიყენება თვითმართვისთვის

მაგალითად, ლონდონში დაფუძნებული AI კომპანია გზა წარმატებით გამოიყენა ღრმა გაძლიერების სწავლის მოდელი ავტონომიური მართვისთვის. თავიანთ ექსპერიმენტში მათ გამოიყენეს ჯილდოს ფუნქცია, რომელიც მაქსიმუმს აწვდის ავტომობილის გაშვებას ისე, რომ მძღოლი არ აწვდის ინფორმაციას.

RL მოდელები ასევე ეხმარებიან მანქანებს გარემოზე დაყრდნობით გადაწყვეტილების მიღებაში, როგორიცაა დაბრკოლებების თავიდან აცილება ან მოძრაობაში შერწყმა. ამ მოდელებმა უნდა იპოვონ გზა, რომ ავტომობილის გარშემო არსებული რთული გარემო გარდაქმნან წარმომადგენლობით მდგომარეობად, რომელიც მოდელს შეუძლია გაიგოს.

განმამტკიცებელი სწავლება რობოტიკაში

მკვლევარები ასევე იყენებდნენ გაძლიერებულ სწავლებას რობოტების შესაქმნელად, რომლებსაც შეუძლიათ რთული ამოცანების სწავლა. ამ RL მოდელების საშუალებით რობოტებს შეუძლიათ დააკვირდნენ თავიანთ გარემოს და მიიღონ გადაწყვეტილებები მათი დაკვირვების საფუძველზე.

მაგალითად, ჩატარდა კვლევა გაძლიერების სწავლის მოდელების გამოყენების შესახებ, რათა ორფეხა რობოტებს შეეძლოთ ისწავლონ როგორ ფეხით საკუთარ თავზე.

გამაგრებითი სწავლება რობოტის სიარულის სწავლებას

მკვლევარები RL-ს რობოტიკის სფეროში საკვანძო მეთოდად მიიჩნევენ. გაძლიერების სწავლება რობოტულ აგენტებს აძლევს საშუალებას ისწავლონ დახვეწილი ქმედებები, რომლებიც სხვაგვარად შეიძლება რთული იყოს ინჟინერიისთვის.

გაძლიერების სწავლა თამაშში

RL მოდელები ასევე გამოიყენეს ვიდეო თამაშების თამაშის შესასწავლად. აგენტები შეიძლება შეიქმნას იმისთვის, რომ ისწავლონ თავიანთ შეცდომებზე და მუდმივად გააუმჯობესონ თავიანთი შესრულება თამაშში.

მკვლევარებმა უკვე შეიმუშავეს აგენტები, რომლებსაც შეუძლიათ ისეთი თამაშების თამაში, როგორიცაა ჭადრაკი, Go და პოკერი. 2013 - ში, Deepmind გამოიყენა Deep Reinforcement Learning, რათა მოდელს ესწავლა Atari თამაშების თამაში ნულიდან.

ბევრ სამაგიდო თამაშს და ვიდეო თამაშს აქვს შეზღუდული სამოქმედო სივრცე და კარგად განსაზღვრული კონკრეტული მიზანი. ეს თვისებები მუშაობს RL მოდელის სასარგებლოდ. RL მეთოდებს შეუძლიათ სწრაფად გაიმეორონ მილიონობით სიმულირებული თამაში, რათა ისწავლონ ოპტიმალური სტრატეგიები გამარჯვების მისაღწევად.

დასკვნა

იქნება ეს სიარულის სწავლა თუ ვიდეო თამაშების სწავლა, RL მოდელები დადასტურდა, რომ სასარგებლო AI ჩარჩოებია პრობლემების გადასაჭრელად, რომლებიც საჭიროებენ კომპლექსურ გადაწყვეტილების მიღებას.

ტექნოლოგიების განვითარებასთან ერთად, მკვლევარებიც და დეველოპერებიც გააგრძელებენ ახალი აპლიკაციების პოვნას, რომლებიც გამოიყენებენ მოდელის თვითსწავლების შესაძლებლობებს.

როგორ ფიქრობთ, რა პრაქტიკულ აპლიკაციებში დაგეხმარებათ განმტკიცების სწავლება?

განმტკიცების სწავლა: AI, რომელიც სწავლობს თავის შეცდომებზე

რა არის განმტკიცების სწავლა?