การเรียนรู้แบบเสริมแรง: AI ที่เรียนรู้จากความผิดพลาด

สารบัญ[ซ่อน][แสดง]

การเรียนรู้การเสริมแรงคืออะไร?
ตัวอย่างง่ายๆ: ตาราง 4 × 4+-
- นโยบายและผลตอบแทน
- การสำรวจกับการแสวงหาผลประโยชน์
การใช้งานจริง+-
สรุป

สมมติว่าคุณกำลังพยายามสอนหุ่นยนต์ให้เดิน แตกต่างจากการสอนคอมพิวเตอร์ถึงวิธีทำนายราคาหุ้นหรือจัดหมวดหมู่รูปภาพ เราไม่มีชุดข้อมูลขนาดใหญ่จริงๆ ที่เราสามารถใช้ฝึกหุ่นยนต์

แม้ว่าคุณอาจจะรู้สึกเป็นธรรมชาติ แต่จริงๆ แล้วการเดินเป็นการกระทำที่ซับซ้อนมาก การเดินหนึ่งก้าวมักต้องใช้กล้ามเนื้อหลายส่วนทำงานร่วมกัน ความพยายามและเทคนิคที่ใช้ในการเดินจากที่หนึ่งไปยังอีกที่หนึ่งยังขึ้นอยู่กับปัจจัยหลายอย่าง รวมถึงว่าคุณแบกอะไรอยู่หรือมีความลาดเอียงหรือมีอุปสรรคในรูปแบบอื่นๆ หรือไม่

ในสถานการณ์เช่นนี้ เราสามารถใช้วิธีที่เรียกว่าการเรียนรู้แบบเสริมแรงหรือ RL ด้วย RL คุณสามารถกำหนดเป้าหมายเฉพาะที่คุณต้องการให้โมเดลของคุณแก้ไข และค่อยๆ ปล่อยให้โมเดลเรียนรู้วิธีการทำให้สำเร็จด้วยตัวมันเอง

ในบทความนี้ เราจะสำรวจพื้นฐานของการเรียนรู้แบบเสริมแรงและวิธีที่เราสามารถนำเฟรมเวิร์ก RL ไปใช้กับปัญหาต่างๆ ที่หลากหลายในโลกแห่งความเป็นจริง

การเรียนรู้การเสริมแรงคืออะไร?

การเรียนรู้การเสริมแรงหมายถึงส่วนย่อยเฉพาะของ เรียนรู้เครื่อง ที่เน้นการหาทางออกด้วยการให้รางวัลแก่พฤติกรรมที่ต้องการและลงโทษพฤติกรรมที่ไม่พึงปรารถนา

แผนผังกรอบการเรียนรู้การเสริมแรง

วิธีการเรียนรู้แบบเสริมแรงแตกต่างจากการเรียนรู้แบบมีผู้สอนโดยทั่วไปไม่มีชุดข้อมูลการฝึกอบรมที่ให้ผลลัพธ์ที่ถูกต้องสำหรับอินพุตที่กำหนด ในกรณีที่ไม่มีข้อมูลการฝึกอบรม อัลกอริทึมจะต้องค้นหาวิธีแก้ปัญหาผ่านการลองผิดลองถูก อัลกอริทึมซึ่งเรามักเรียกว่า ตัวแทนต้องหาทางออกด้วยตัวเองโดยโต้ตอบกับ สิ่งแวดล้อม.

นักวิจัยตัดสินใจเลือกผลลัพธ์ที่ต้องการ ตอบแทน และอัลกอริทึมสามารถทำอะไรได้บ้าง ทั้งหมด การกระทำ อัลกอริทึมที่ใช้จะได้รับข้อเสนอแนะบางรูปแบบซึ่งให้คะแนนว่าอัลกอริทึมทำงานได้ดีเพียงใด ในระหว่างขั้นตอนการฝึกอบรม อัลกอริทึมจะค้นหาวิธีแก้ปัญหาที่เหมาะสมที่สุด

ตัวอย่างง่ายๆ: ตาราง 4 × 4

ลองมาดูตัวอย่างง่ายๆ ของปัญหาที่เราสามารถแก้ไขได้ด้วยการเรียนรู้แบบเสริมแรง

สมมติว่าเรามีกริด 4×4 เป็นสภาพแวดล้อมของเรา ตัวแทนของเราจะถูกวางแบบสุ่มในหนึ่งในสี่เหลี่ยมพร้อมกับสิ่งกีดขวางเล็กน้อย ตารางจะต้องมีสิ่งกีดขวาง "หลุม" สามอันที่ต้องหลีกเลี่ยงและรางวัล "เพชร" หนึ่งเม็ดที่เจ้าหน้าที่ต้องหาให้เจอ คำอธิบายที่สมบูรณ์ของสภาพแวดล้อมของเราเรียกว่าสภาพแวดล้อม รัฐ.

การเรียนรู้การเสริมแรงขึ้นอยู่กับตัวแทนที่โต้ตอบกับสภาพแวดล้อมจำลอง

ในโมเดล RL ของเรา ตัวแทนของเราสามารถย้ายไปยังช่องสี่เหลี่ยมที่อยู่ติดกันได้ ตราบใดที่ไม่มีสิ่งกีดขวางขวางอยู่ ชุดของการดำเนินการที่ถูกต้องทั้งหมดในสภาพแวดล้อมที่กำหนดเรียกว่า พื้นที่ดำเนินการ. เป้าหมายของตัวแทนของเราคือการหาเส้นทางที่สั้นที่สุดเพื่อรับรางวัล

ตัวแทนมีพื้นที่ดำเนินการหรือชุดของการดำเนินการที่ถูกต้องในสถานะที่กำหนด

ตัวแทนของเราจะใช้วิธีการเรียนรู้แบบเสริมแรงเพื่อค้นหาเส้นทางสู่เพชรที่ต้องใช้ขั้นตอนน้อยที่สุด แต่ละขั้นตอนที่ถูกต้องจะให้รางวัลแก่หุ่นยนต์ และแต่ละขั้นตอนที่ไม่ถูกต้องจะหักลบรางวัลของหุ่นยนต์ โมเดลจะคำนวณรางวัลทั้งหมดเมื่อตัวแทนไปถึงเพชร

ตอนนี้เราได้กำหนดเอเจนต์และสภาพแวดล้อมแล้ว เรายังต้องกำหนดกฎเพื่อใช้สำหรับกำหนดการดำเนินการถัดไปที่เอเจนต์จะดำเนินการตามสถานะปัจจุบันและสภาพแวดล้อม

นโยบายและผลตอบแทน

ในรูปแบบการเรียนรู้เสริมแรงก นโยบาย หมายถึงกลยุทธ์ที่ตัวแทนใช้เพื่อบรรลุเป้าหมาย นโยบายของเอเจนต์คือสิ่งที่กำหนดว่าเอเจนต์ควรทำอะไรต่อไป โดยพิจารณาจากสถานะปัจจุบันของเอเจนต์และสภาพแวดล้อม

เอเจนต์ต้องประเมินนโยบายที่เป็นไปได้ทั้งหมดเพื่อดูว่านโยบายใดเหมาะสมที่สุด

การประเมินนโยบาย

ในตัวอย่างง่ายๆ ของเรา การลงจอดบนพื้นที่ว่างจะส่งกลับค่าเป็น -1 เมื่อตัวแทนลงจอดในพื้นที่ที่มีรางวัลเพชร พวกเขาจะได้รับมูลค่า 10 การใช้ค่าเหล่านี้ เราสามารถเปรียบเทียบนโยบายต่างๆ โดยใช้ ฟังก์ชั่นยูทิลิตี้ U.

ตอนนี้เรามาเปรียบเทียบประโยชน์ของนโยบายทั้งสองที่เห็นด้านบน:

ยู(เอ) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

ผลลัพธ์แสดงให้เห็นว่านโยบาย A เป็นเส้นทางที่ดีกว่าในการค้นหารางวัล ดังนั้น ตัวแทนจะใช้เส้นทาง A มากกว่านโยบาย B

การสำรวจกับการแสวงหาผลประโยชน์

ปัญหาการแลกเปลี่ยนระหว่างการสำรวจกับการแสวงประโยชน์ในการเรียนรู้การเสริมกำลังเป็นภาวะที่กลืนไม่เข้าคายไม่ออกที่เจ้าหน้าที่ต้องเผชิญในระหว่างกระบวนการตัดสินใจ

ตัวแทนควรมุ่งเน้นไปที่การสำรวจเส้นทางหรือทางเลือกใหม่ หรือพวกเขาควรใช้ประโยชน์จากตัวเลือกที่พวกเขารู้อยู่แล้วต่อไป?

หากตัวแทนเลือกที่จะสำรวจ มีความเป็นไปได้ที่ตัวแทนจะพบตัวเลือกที่ดีกว่า แต่อาจเสี่ยงต่อการเสียเวลาและทรัพยากร ในทางกลับกัน หากตัวแทนเลือกที่จะใช้ประโยชน์จากโซลูชันที่รู้อยู่แล้ว ก็อาจพลาดตัวเลือกที่ดีกว่าไป

การใช้งานจริง

มีวิธีดังนี้ นักวิจัย AI ได้นำโมเดลการเรียนรู้แบบเสริมแรงไปใช้แก้ปัญหาในโลกแห่งความเป็นจริง:

การเรียนรู้การเสริมแรงในรถยนต์ขับเคลื่อนด้วยตนเอง

การเรียนรู้แบบเสริมกำลังถูกนำไปใช้กับรถยนต์ที่ขับเองเพื่อพัฒนาความสามารถในการขับขี่อย่างปลอดภัยและมีประสิทธิภาพ เทคโนโลยีนี้ช่วยให้รถยนต์ไร้คนขับสามารถเรียนรู้จากข้อผิดพลาดและปรับเปลี่ยนพฤติกรรมอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพสูงสุด

การเรียนรู้เสริมแรงที่ใช้สำหรับการขับรถด้วยตนเอง

ตัวอย่างเช่น บริษัท AI ในลอนดอน เวย์ ประสบความสำเร็จในการใช้รูปแบบการเรียนรู้เสริมแรงเชิงลึกสำหรับการขับขี่อัตโนมัติ ในการทดลอง พวกเขาใช้ฟังก์ชันการให้รางวัลที่เพิ่มระยะเวลาที่ยานพาหนะวิ่งได้สูงสุดโดยที่คนขับไม่ต้องป้อนข้อมูลใดๆ

รุ่น RL ยังช่วยรถยนต์ในการตัดสินใจตามสภาพแวดล้อม เช่น การหลีกเลี่ยงสิ่งกีดขวางหรือการรวมเข้ากับการจราจร โมเดลเหล่านี้ต้องหาทางเปลี่ยนสภาพแวดล้อมที่ซับซ้อนรอบๆ ตัวรถให้เป็นพื้นที่สถานะตัวแทนที่โมเดลสามารถเข้าใจได้

การเรียนรู้การเสริมแรงในวิทยาการหุ่นยนต์

นักวิจัยยังใช้การเรียนรู้แบบเสริมแรงเพื่อพัฒนาหุ่นยนต์ที่สามารถเรียนรู้งานที่ซับซ้อนได้ ด้วยโมเดล RL เหล่านี้ หุ่นยนต์สามารถสังเกตสภาพแวดล้อมและตัดสินใจตามการสังเกตได้

ตัวอย่างเช่น มีการวิจัยเกี่ยวกับการใช้แบบจำลองการเรียนรู้แบบเสริมแรงเพื่อให้หุ่นยนต์สองขาเรียนรู้วิธีการ เดิน ได้ด้วยตัวเอง.

การเรียนรู้เสริมกำลังสอนหุ่นยนต์เดิน

นักวิจัยพิจารณาว่า RL เป็นวิธีการสำคัญในด้านวิทยาการหุ่นยนต์ การเรียนรู้แบบเสริมกำลังช่วยให้ตัวแทนหุ่นยนต์มีกรอบการเรียนรู้การกระทำที่ซับซ้อนซึ่งอาจทำได้ยาก

เสริมการเรียนรู้ในเกม

นอกจากนี้ยังใช้โมเดล RL เพื่อเรียนรู้วิธีการเล่นวิดีโอเกม ตัวแทนสามารถตั้งค่าให้เรียนรู้จากข้อผิดพลาดและปรับปรุงประสิทธิภาพในเกมอย่างต่อเนื่อง

นักวิจัยได้พัฒนาตัวแทนที่สามารถเล่นเกมเช่นหมากรุก โกะ และโป๊กเกอร์ได้แล้ว ในปี 2013, Deepmind ใช้ Deep Reinforcement Learning เพื่อให้โมเดลเรียนรู้วิธีเล่นเกม Atari ตั้งแต่เริ่มต้น

เกมกระดานและวิดีโอเกมจำนวนมากมีพื้นที่ดำเนินการจำกัดและมีเป้าหมายที่เป็นรูปธรรมชัดเจน ลักษณะเหล่านี้ทำงานเพื่อประโยชน์ของโมเดล RL วิธีการ RL สามารถวนซ้ำเกมจำลองหลายล้านเกมได้อย่างรวดเร็วเพื่อเรียนรู้กลยุทธ์ที่ดีที่สุดเพื่อให้ได้ชัยชนะ

สรุป

ไม่ว่าจะเป็นการเรียนรู้วิธีการเดินหรือการเรียนรู้วิธีการเล่นวิดีโอเกม โมเดล RL ได้รับการพิสูจน์แล้วว่าเป็นเฟรมเวิร์ก AI ที่มีประโยชน์สำหรับการแก้ปัญหาที่ต้องใช้การตัดสินใจที่ซับซ้อน

ขณะที่เทคโนโลยีมีการพัฒนาอย่างต่อเนื่อง ทั้งนักวิจัยและนักพัฒนาจะยังคงค้นหาแอปพลิเคชันใหม่ๆ ที่ใช้ประโยชน์จากความสามารถในการสอนด้วยตนเองของโมเดลต่อไป

คุณคิดว่าการประยุกต์ใช้การเรียนรู้แบบเสริมแรงในเชิงปฏิบัติสามารถช่วยอะไรได้บ้าง

การเรียนรู้การเสริมแรง: AI ที่เรียนรู้จากความผิดพลาด

การเรียนรู้การเสริมแรงคืออะไร?