Học tăng cường: AI học từ những sai lầm của nó

Mục lục[Ẩn giấu][Chỉ]

Học tăng cường là gì?
Một ví dụ đơn giản: Lưới 4×4+-
- Chính sách và Khen thưởng
- Thăm dò so với Khai thác
Ứng dụng thực tế+-
Kết luận

Hãy tưởng tượng bạn đang cố dạy một con rô-bốt cách đi. Không giống như dạy máy tính cách dự đoán giá cổ phiếu hoặc phân loại hình ảnh, chúng tôi không thực sự có một tập dữ liệu lớn mà chúng tôi có thể sử dụng để huấn luyện robot của mình.

Mặc dù nó có thể đến với bạn một cách tự nhiên, nhưng đi bộ thực sự là một hành động rất phức tạp. Đi bộ một bước thường liên quan đến hàng chục cơ bắp khác nhau cùng hoạt động. Nỗ lực và kỹ thuật được sử dụng để đi bộ từ nơi này sang nơi khác cũng phụ thuộc vào nhiều yếu tố khác nhau, bao gồm cả việc bạn có mang theo thứ gì đó hay không, có dốc hay các dạng chướng ngại vật khác hay không.

Trong những tình huống như thế này, chúng ta có thể sử dụng một phương pháp được gọi là học tăng cường hoặc RL. Với RL, bạn có thể xác định một mục tiêu cụ thể mà bạn muốn mô hình của mình giải quyết và dần dần để mô hình tự học cách hoàn thành mục tiêu đó.

Trong bài viết này, chúng ta sẽ khám phá những kiến thức cơ bản về học tăng cường và cách chúng ta có thể áp dụng khung RL cho nhiều vấn đề khác nhau trong thế giới thực.

Học tăng cường là gì?

Học tăng cường đề cập đến một tập hợp con cụ thể của học máy tập trung vào việc tìm ra giải pháp bằng cách khen thưởng những hành vi mong muốn và trừng phạt những hành vi không mong muốn.

sơ đồ khung học tăng cường

Không giống như học có giám sát, phương pháp học tăng cường thường không có tập dữ liệu huấn luyện cung cấp đầu ra phù hợp cho một đầu vào nhất định. Trong trường hợp không có dữ liệu huấn luyện, thuật toán phải tìm giải pháp thông qua thử và sai. Thuật toán mà chúng ta thường gọi là thuật toán đại lý, phải tự tìm ra giải pháp bằng cách tương tác với môi trường.

Các nhà nghiên cứu quyết định những kết quả cụ thể nào đối với khen thưởng và thuật toán có khả năng làm gì. Mọi hoạt động thuật toán thực hiện sẽ nhận được một số dạng phản hồi cho biết thuật toán đang hoạt động tốt như thế nào. Trong quá trình huấn luyện, cuối cùng thuật toán sẽ tìm ra phương án tối ưu để giải một bài toán nào đó.

Một ví dụ đơn giản: Lưới 4×4

Hãy xem một ví dụ đơn giản về một vấn đề mà chúng ta có thể giải quyết bằng cách học tăng cường.

Giả sử chúng ta có lưới 4×4 làm môi trường. Đặc vụ của chúng tôi được đặt ngẫu nhiên vào một trong các ô vuông cùng với một vài chướng ngại vật. Lưới sẽ chứa ba chướng ngại vật "hố" phải tránh và một phần thưởng "kim cương" duy nhất mà đặc vụ phải tìm. Mô tả đầy đủ về môi trường của chúng ta được gọi là nhà nước.

học tăng cường dựa vào một tác nhân tương tác với môi trường mô phỏng

Trong mô hình RL của chúng tôi, tác nhân của chúng tôi có thể di chuyển đến bất kỳ ô vuông liền kề nào miễn là không có chướng ngại vật nào chặn chúng. Tập hợp tất cả các hành động hợp lệ trong một môi trường nhất định được gọi là không gian hành động. Mục tiêu của đại lý của chúng tôi là tìm ra con đường ngắn nhất để nhận phần thưởng.

tác nhân có một không gian hành động hoặc tập hợp các hành động hợp lệ trong một trạng thái nhất định

Đại lý của chúng tôi sẽ sử dụng phương pháp học tăng cường để tìm đường dẫn đến viên kim cương cần ít bước nhất. Mỗi bước đi đúng sẽ mang lại cho robot một phần thưởng và mỗi bước sai sẽ trừ đi phần thưởng của robot. Mô hình tính toán tổng phần thưởng sau khi đại lý đạt được viên kim cương.

Bây giờ chúng ta đã xác định tác nhân và môi trường, chúng ta cũng phải xác định các quy tắc sẽ sử dụng để xác định hành động tiếp theo mà tác nhân sẽ thực hiện với trạng thái hiện tại và môi trường.

Chính sách và Khen thưởng

Trong một mô hình học tăng cường, một điều luật đề cập đến chiến lược được sử dụng bởi một đại lý để đạt được mục tiêu của họ. Chính sách của tác nhân là thứ quyết định tác nhân nên làm gì tiếp theo với trạng thái hiện tại của tác nhân và môi trường của nó.

Đại lý phải đánh giá tất cả các chính sách có thể để xem chính sách nào là tối ưu.

đánh giá chính sách

Trong ví dụ đơn giản của chúng tôi, hạ cánh trên một khoảng trống sẽ trả về giá trị -1. Khi nhân viên đáp xuống một không gian có phần thưởng kim cương, họ sẽ nhận được giá trị là 10. Sử dụng các giá trị này, chúng tôi có thể so sánh các chính sách khác nhau bằng cách sử dụng một chức năng tiện ích U.

Bây giờ chúng ta hãy so sánh tiện ích của hai chính sách đã thấy ở trên:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Kết quả cho thấy Chính sách A là con đường tốt hơn để tìm phần thưởng. Do đó, đại lý sẽ sử dụng Đường dẫn A trên Chính sách B.

Thăm dò so với Khai thác

Vấn đề đánh đổi giữa thăm dò và khai thác trong học tăng cường là một vấn đề nan giải mà một tác nhân phải đối mặt trong quá trình quyết định.

Các đại lý nên tập trung vào việc khám phá các con đường hoặc tùy chọn mới hay họ nên tiếp tục khai thác các tùy chọn mà họ đã biết?

Nếu tác nhân chọn khám phá, tác nhân đó có khả năng tìm thấy một lựa chọn tốt hơn, nhưng nó cũng có thể gây rủi ro lãng phí thời gian và nguồn lực. Mặt khác, nếu tác tử chọn khai thác giải pháp mà nó đã biết, nó có thể bỏ lỡ một lựa chọn tốt hơn.

Ứng dụng thực tế

Đây là một số cách Nhà nghiên cứu AI đã áp dụng các mô hình học tăng cường để giải quyết các vấn đề trong thế giới thực:

Học tăng cường trong ô tô tự lái

Học tăng cường đã được áp dụng cho ô tô tự lái nhằm cải thiện khả năng lái xe an toàn và hiệu quả. Công nghệ này cho phép những chiếc xe tự hành học hỏi từ những sai lầm của chúng và liên tục điều chỉnh hành vi của chúng để tối ưu hóa hiệu suất của chúng.

học tăng cường được sử dụng cho xe tự lái

Ví dụ, công ty AI có trụ sở tại London con đường đã áp dụng thành công mô hình học tăng cường sâu cho lái xe tự hành. Trong thử nghiệm của mình, họ đã sử dụng chức năng phần thưởng giúp tối đa hóa thời gian xe chạy mà không cần người lái trên xe cung cấp thông tin đầu vào.

Các mô hình RL cũng giúp ô tô đưa ra quyết định dựa trên môi trường, chẳng hạn như tránh chướng ngại vật hoặc hòa vào dòng xe cộ. Các mô hình này phải tìm cách chuyển đổi môi trường phức tạp xung quanh ô tô thành không gian trạng thái đại diện mà mô hình có thể hiểu được.

Học tăng cường trong Robotics

Các nhà nghiên cứu cũng đang sử dụng phương pháp học tăng cường để phát triển rô-bốt có thể học các nhiệm vụ phức tạp. Thông qua các mô hình RL này, rô-bốt có thể quan sát môi trường của chúng và đưa ra quyết định dựa trên các quan sát của chúng.

Ví dụ, nghiên cứu đã được thực hiện về việc sử dụng các mô hình học tăng cường để cho phép rô-bốt hai chân học cách đi bộ riêng của họ.

học tăng cường dạy robot đi bộ

Các nhà nghiên cứu coi RL là một phương pháp chủ chốt trong lĩnh vực người máy. Học tăng cường cung cấp cho các tác nhân rô-bốt một khuôn khổ để học các hành động phức tạp có thể khó thiết kế.

Học tăng cường trong trò chơi

Các mô hình RL cũng đã được sử dụng để học cách chơi trò chơi điện tử. Các đặc vụ có thể được thiết lập để học hỏi từ những sai lầm của họ và liên tục cải thiện hiệu suất của họ trong trò chơi.

Các nhà nghiên cứu đã phát triển các tác nhân có thể chơi các trò chơi như cờ vua, cờ vây và bài xì phé. Vào 2013, Deepmind đã sử dụng Deep Reinforcement Learning để cho phép một mô hình học cách chơi trò chơi Atari từ đầu.

Nhiều trò chơi cờ bàn và trò chơi điện tử có không gian hành động hạn chế và mục tiêu cụ thể được xác định rõ ràng. Những đặc điểm này có lợi cho mô hình RL. Các phương pháp RL có thể nhanh chóng lặp lại hàng triệu trò chơi mô phỏng để tìm hiểu các chiến lược tối ưu nhằm đạt được chiến thắng.

Kết luận

Cho dù đó là học cách đi bộ hay học cách chơi trò chơi điện tử, các mô hình RL đã được chứng minh là khung AI hữu ích để giải quyết các vấn đề đòi hỏi việc ra quyết định phức tạp.

Khi công nghệ tiếp tục phát triển, cả nhà nghiên cứu và nhà phát triển sẽ tiếp tục tìm ra các ứng dụng mới tận dụng khả năng tự dạy của mô hình.

Bạn nghĩ học tăng cường có thể giúp ích cho những ứng dụng thực tế nào?

Học tăng cường: AI học từ những sai lầm của nó

Học tăng cường là gì?