สมมติว่าคุณกำลังพยายามสอนหุ่นยนต์ให้เดิน แตกต่างจากการสอนคอมพิวเตอร์ถึงวิธีทำนายราคาหุ้นหรือจัดหมวดหมู่รูปภาพ เราไม่มีชุดข้อมูลขนาดใหญ่จริงๆ ที่เราสามารถใช้ฝึกหุ่นยนต์
แม้ว่าคุณอาจจะรู้สึกเป็นธรรมชาติ แต่จริงๆ แล้วการเดินเป็นการกระทำที่ซับซ้อนมาก การเดินหนึ่งก้าวมักต้องใช้กล้ามเนื้อหลายส่วนทำงานร่วมกัน ความพยายามและเทคนิคที่ใช้ในการเดินจากที่หนึ่งไปยังอีกที่หนึ่งยังขึ้นอยู่กับปัจจัยหลายอย่าง รวมถึงว่าคุณแบกอะไรอยู่หรือมีความลาดเอียงหรือมีอุปสรรคในรูปแบบอื่นๆ หรือไม่
ในสถานการณ์เช่นนี้ เราสามารถใช้วิธีที่เรียกว่าการเรียนรู้แบบเสริมแรงหรือ RL ด้วย RL คุณสามารถกำหนดเป้าหมายเฉพาะที่คุณต้องการให้โมเดลของคุณแก้ไข และค่อยๆ ปล่อยให้โมเดลเรียนรู้วิธีการทำให้สำเร็จด้วยตัวมันเอง
ในบทความนี้ เราจะสำรวจพื้นฐานของการเรียนรู้แบบเสริมแรงและวิธีที่เราสามารถนำเฟรมเวิร์ก RL ไปใช้กับปัญหาต่างๆ ที่หลากหลายในโลกแห่งความเป็นจริง
การเรียนรู้การเสริมแรงคืออะไร?
การเรียนรู้การเสริมแรงหมายถึงส่วนย่อยเฉพาะของ เรียนรู้เครื่อง ที่เน้นการหาทางออกด้วยการให้รางวัลแก่พฤติกรรมที่ต้องการและลงโทษพฤติกรรมที่ไม่พึงปรารถนา
วิธีการเรียนรู้แบบเสริมแรงแตกต่างจากการเรียนรู้แบบมีผู้สอนโดยทั่วไปไม่มีชุดข้อมูลการฝึกอบรมที่ให้ผลลัพธ์ที่ถูกต้องสำหรับอินพุตที่กำหนด ในกรณีที่ไม่มีข้อมูลการฝึกอบรม อัลกอริทึมจะต้องค้นหาวิธีแก้ปัญหาผ่านการลองผิดลองถูก อัลกอริทึมซึ่งเรามักเรียกว่า ตัวแทนต้องหาทางออกด้วยตัวเองโดยโต้ตอบกับ สิ่งแวดล้อม.
นักวิจัยตัดสินใจเลือกผลลัพธ์ที่ต้องการ ตอบแทน และอัลกอริทึมสามารถทำอะไรได้บ้าง ทั้งหมด การกระทำ อัลกอริทึมที่ใช้จะได้รับข้อเสนอแนะบางรูปแบบซึ่งให้คะแนนว่าอัลกอริทึมทำงานได้ดีเพียงใด ในระหว่างขั้นตอนการฝึกอบรม อัลกอริทึมจะค้นหาวิธีแก้ปัญหาที่เหมาะสมที่สุด
ตัวอย่างง่ายๆ: ตาราง 4 × 4
ลองมาดูตัวอย่างง่ายๆ ของปัญหาที่เราสามารถแก้ไขได้ด้วยการเรียนรู้แบบเสริมแรง
สมมติว่าเรามีกริด 4×4 เป็นสภาพแวดล้อมของเรา ตัวแทนของเราจะถูกวางแบบสุ่มในหนึ่งในสี่เหลี่ยมพร้อมกับสิ่งกีดขวางเล็กน้อย ตารางจะต้องมีสิ่งกีดขวาง "หลุม" สามอันที่ต้องหลีกเลี่ยงและรางวัล "เพชร" หนึ่งเม็ดที่เจ้าหน้าที่ต้องหาให้เจอ คำอธิบายที่สมบูรณ์ของสภาพแวดล้อมของเราเรียกว่าสภาพแวดล้อม รัฐ.
ในโมเดล RL ของเรา ตัวแทนของเราสามารถย้ายไปยังช่องสี่เหลี่ยมที่อยู่ติดกันได้ ตราบใดที่ไม่มีสิ่งกีดขวางขวางอยู่ ชุดของการดำเนินการที่ถูกต้องทั้งหมดในสภาพแวดล้อมที่กำหนดเรียกว่า พื้นที่ดำเนินการ. เป้าหมายของตัวแทนของเราคือการหาเส้นทางที่สั้นที่สุดเพื่อรับรางวัล
ตัวแทนของเราจะใช้วิธีการเรียนรู้แบบเสริมแรงเพื่อค้นหาเส้นทางสู่เพชรที่ต้องใช้ขั้นตอนน้อยที่สุด แต่ละขั้นตอนที่ถูกต้องจะให้รางวัลแก่หุ่นยนต์ และแต่ละขั้นตอนที่ไม่ถูกต้องจะหักลบรางวัลของหุ่นยนต์ โมเดลจะคำนวณรางวัลทั้งหมดเมื่อตัวแทนไปถึงเพชร
ตอนนี้เราได้กำหนดเอเจนต์และสภาพแวดล้อมแล้ว เรายังต้องกำหนดกฎเพื่อใช้สำหรับกำหนดการดำเนินการถัดไปที่เอเจนต์จะดำเนินการตามสถานะปัจจุบันและสภาพแวดล้อม
นโยบายและผลตอบแทน
ในรูปแบบการเรียนรู้เสริมแรงก นโยบาย หมายถึงกลยุทธ์ที่ตัวแทนใช้เพื่อบรรลุเป้าหมาย นโยบายของเอเจนต์คือสิ่งที่กำหนดว่าเอเจนต์ควรทำอะไรต่อไป โดยพิจารณาจากสถานะปัจจุบันของเอเจนต์และสภาพแวดล้อม
เอเจนต์ต้องประเมินนโยบายที่เป็นไปได้ทั้งหมดเพื่อดูว่านโยบายใดเหมาะสมที่สุด
ในตัวอย่างง่ายๆ ของเรา การลงจอดบนพื้นที่ว่างจะส่งกลับค่าเป็น -1 เมื่อตัวแทนลงจอดในพื้นที่ที่มีรางวัลเพชร พวกเขาจะได้รับมูลค่า 10 การใช้ค่าเหล่านี้ เราสามารถเปรียบเทียบนโยบายต่างๆ โดยใช้ ฟังก์ชั่นยูทิลิตี้ U.
ตอนนี้เรามาเปรียบเทียบประโยชน์ของนโยบายทั้งสองที่เห็นด้านบน:
ยู(เอ) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
ผลลัพธ์แสดงให้เห็นว่านโยบาย A เป็นเส้นทางที่ดีกว่าในการค้นหารางวัล ดังนั้น ตัวแทนจะใช้เส้นทาง A มากกว่านโยบาย B
การสำรวจกับการแสวงหาผลประโยชน์
ปัญหาการแลกเปลี่ยนระหว่างการสำรวจกับการแสวงประโยชน์ในการเรียนรู้การเสริมกำลังเป็นภาวะที่กลืนไม่เข้าคายไม่ออกที่เจ้าหน้าที่ต้องเผชิญในระหว่างกระบวนการตัดสินใจ
ตัวแทนควรมุ่งเน้นไปที่การสำรวจเส้นทางหรือทางเลือกใหม่ หรือพวกเขาควรใช้ประโยชน์จากตัวเลือกที่พวกเขารู้อยู่แล้วต่อไป?
หากตัวแทนเลือกที่จะสำรวจ มีความเป็นไปได้ที่ตัวแทนจะพบตัวเลือกที่ดีกว่า แต่อาจเสี่ยงต่อการเสียเวลาและทรัพยากร ในทางกลับกัน หากตัวแทนเลือกที่จะใช้ประโยชน์จากโซลูชันที่รู้อยู่แล้ว ก็อาจพลาดตัวเลือกที่ดีกว่าไป
การใช้งานจริง
มีวิธีดังนี้ นักวิจัย AI ได้นำโมเดลการเรียนรู้แบบเสริมแรงไปใช้แก้ปัญหาในโลกแห่งความเป็นจริง:
การเรียนรู้การเสริมแรงในรถยนต์ขับเคลื่อนด้วยตนเอง
การเรียนรู้แบบเสริมกำลังถูกนำไปใช้กับรถยนต์ที่ขับเองเพื่อพัฒนาความสามารถในการขับขี่อย่างปลอดภัยและมีประสิทธิภาพ เทคโนโลยีนี้ช่วยให้รถยนต์ไร้คนขับสามารถเรียนรู้จากข้อผิดพลาดและปรับเปลี่ยนพฤติกรรมอย่างต่อเนื่องเพื่อเพิ่มประสิทธิภาพสูงสุด
ตัวอย่างเช่น บริษัท AI ในลอนดอน เวย์ ประสบความสำเร็จในการใช้รูปแบบการเรียนรู้เสริมแรงเชิงลึกสำหรับการขับขี่อัตโนมัติ ในการทดลอง พวกเขาใช้ฟังก์ชันการให้รางวัลที่เพิ่มระยะเวลาที่ยานพาหนะวิ่งได้สูงสุดโดยที่คนขับไม่ต้องป้อนข้อมูลใดๆ
รุ่น RL ยังช่วยรถยนต์ในการตัดสินใจตามสภาพแวดล้อม เช่น การหลีกเลี่ยงสิ่งกีดขวางหรือการรวมเข้ากับการจราจร โมเดลเหล่านี้ต้องหาทางเปลี่ยนสภาพแวดล้อมที่ซับซ้อนรอบๆ ตัวรถให้เป็นพื้นที่สถานะตัวแทนที่โมเดลสามารถเข้าใจได้
การเรียนรู้การเสริมแรงในวิทยาการหุ่นยนต์
นักวิจัยยังใช้การเรียนรู้แบบเสริมแรงเพื่อพัฒนาหุ่นยนต์ที่สามารถเรียนรู้งานที่ซับซ้อนได้ ด้วยโมเดล RL เหล่านี้ หุ่นยนต์สามารถสังเกตสภาพแวดล้อมและตัดสินใจตามการสังเกตได้
ตัวอย่างเช่น มีการวิจัยเกี่ยวกับการใช้แบบจำลองการเรียนรู้แบบเสริมแรงเพื่อให้หุ่นยนต์สองขาเรียนรู้วิธีการ เดิน ได้ด้วยตัวเอง.
นักวิจัยพิจารณาว่า RL เป็นวิธีการสำคัญในด้านวิทยาการหุ่นยนต์ การเรียนรู้แบบเสริมกำลังช่วยให้ตัวแทนหุ่นยนต์มีกรอบการเรียนรู้การกระทำที่ซับซ้อนซึ่งอาจทำได้ยาก
เสริมการเรียนรู้ในเกม
นอกจากนี้ยังใช้โมเดล RL เพื่อเรียนรู้วิธีการเล่นวิดีโอเกม ตัวแทนสามารถตั้งค่าให้เรียนรู้จากข้อผิดพลาดและปรับปรุงประสิทธิภาพในเกมอย่างต่อเนื่อง
นักวิจัยได้พัฒนาตัวแทนที่สามารถเล่นเกมเช่นหมากรุก โกะ และโป๊กเกอร์ได้แล้ว ในปี 2013, Deepmind ใช้ Deep Reinforcement Learning เพื่อให้โมเดลเรียนรู้วิธีเล่นเกม Atari ตั้งแต่เริ่มต้น
เกมกระดานและวิดีโอเกมจำนวนมากมีพื้นที่ดำเนินการจำกัดและมีเป้าหมายที่เป็นรูปธรรมชัดเจน ลักษณะเหล่านี้ทำงานเพื่อประโยชน์ของโมเดล RL วิธีการ RL สามารถวนซ้ำเกมจำลองหลายล้านเกมได้อย่างรวดเร็วเพื่อเรียนรู้กลยุทธ์ที่ดีที่สุดเพื่อให้ได้ชัยชนะ
สรุป
ไม่ว่าจะเป็นการเรียนรู้วิธีการเดินหรือการเรียนรู้วิธีการเล่นวิดีโอเกม โมเดล RL ได้รับการพิสูจน์แล้วว่าเป็นเฟรมเวิร์ก AI ที่มีประโยชน์สำหรับการแก้ปัญหาที่ต้องใช้การตัดสินใจที่ซับซ้อน
ขณะที่เทคโนโลยีมีการพัฒนาอย่างต่อเนื่อง ทั้งนักวิจัยและนักพัฒนาจะยังคงค้นหาแอปพลิเคชันใหม่ๆ ที่ใช้ประโยชน์จากความสามารถในการสอนด้วยตนเองของโมเดลต่อไป
คุณคิดว่าการประยุกต์ใช้การเรียนรู้แบบเสริมแรงในเชิงปฏิบัติสามารถช่วยอะไรได้บ้าง
เขียนความเห็น