Обучение с подкреплением: ИИ, который учится на своих ошибках

Содержание[Скрывать][Показывать]

Что такое обучение с подкреплением?
Простой пример: сетка 4×4+-
- Политика и вознаграждения
- Разведка против эксплуатации
Практическое применение+-
Заключение

Давайте представим, что вы пытаетесь научить робота ходить. В отличие от обучения компьютера тому, как предсказывать цены акций или классифицировать изображения, у нас действительно нет большого набора данных, который мы могли бы использовать для обучения нашего робота.

Хотя это может быть естественным для вас, ходьба на самом деле является очень сложным действием. Шаговая ходьба обычно включает в себя десятки различных мышц, работающих вместе. Усилия и методы, используемые для перехода из одного места в другое, также зависят от множества факторов, в том числе от того, несете ли вы что-то, есть ли уклон или другие формы препятствий.

В подобных сценариях мы можем использовать метод, известный как обучение с подкреплением или RL. С помощью RL вы можете определить конкретную цель, которую должна решить ваша модель, и постепенно позволить модели самостоятельно научиться ее выполнять.

В этой статье мы рассмотрим основы обучения с подкреплением и то, как мы можем применить структуру RL к множеству различных проблем в реальном мире.

Что такое обучение с подкреплением?

Обучение с подкреплением относится к определенному подмножеству обучение с помощью машины который фокусируется на поиске решений, поощряя желаемое поведение и наказывая нежелательное поведение.

схема обучения с подкреплением

В отличие от обучения с учителем, метод обучения с подкреплением обычно не имеет обучающего набора данных, который обеспечивает правильный результат для заданного ввода. При отсутствии обучающих данных алгоритм должен найти решение методом проб и ошибок. Алгоритм, который мы обычно называем агент, должен найти решение самостоятельно, взаимодействуя с охрана окружающей среды.

Исследователи решают, какие конкретные результаты следует вознаграждение и на что способен алгоритм. Каждый действие алгоритм получает некоторую форму обратной связи, которая оценивает, насколько хорошо работает алгоритм. В процессе обучения алгоритм в конечном итоге найдет оптимальное решение для решения определенной задачи.

Простой пример: сетка 4×4

Давайте рассмотрим простой пример проблемы, которую мы можем решить с помощью обучения с подкреплением.

Предположим, у нас есть сетка 4×4 в качестве нашей среды. Наш агент случайным образом размещается в одном из квадратов вместе с несколькими препятствиями. Сетка должна содержать три препятствия «ямы», которых нужно избегать, и одно «алмазное» вознаграждение, которое должен найти агент. Полное описание нашей среды известно как состояние.

обучение с подкреплением опирается на агента, который взаимодействует с моделируемой средой.

В нашей модели RL наш агент может перемещаться на любую соседнюю клетку, если нет препятствий, блокирующих его. Набор всех допустимых действий в данной среде известен как пространство действия. Задача нашего агента — найти кратчайший путь к награде.

агент имеет пространство действий или набор допустимых действий в данном состоянии

Наш агент будет использовать метод обучения с подкреплением, чтобы найти путь к алмазу, требующий наименьшего количества шагов. Каждый правильный шаг даст роботу награду, а каждый неправильный шаг вычтет вознаграждение робота. Модель рассчитывает общее вознаграждение, как только агент достигает алмаза.

Теперь, когда мы определили агента и среду, мы должны также определить правила, которые будут использоваться для определения следующего действия, которое агент предпримет с учетом его текущего состояния и среды.

Политика и вознаграждения

В модели обучения с подкреплением политика относится к стратегии, используемой агентом для достижения своих целей. Политика агента — это то, что решает, что агент должен делать дальше, учитывая текущее состояние агента и его окружения.

Агент должен оценить все возможные политики, чтобы определить, какая из них оптимальна.

оценка политик

В нашем простом примере приземление на пустое место вернет значение -1. Когда агент приземлится на поле с алмазной наградой, он получит значение 10. Используя эти значения, мы можем сравнить различные политики, используя вспомогательная функция U.

Давайте теперь сравним полезность двух политик, показанных выше:

U(А) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Результаты показывают, что политика А — лучший путь к получению вознаграждения. Таким образом, агент будет использовать путь A вместо политики B.

Разведка против эксплуатации

Проблема компромисса между исследованием и эксплуатацией в обучении с подкреплением — это дилемма, с которой агент должен столкнуться в процессе принятия решения.

Должны ли агенты сосредоточиться на изучении новых путей или вариантов или они должны продолжать использовать уже известные варианты?

Если агент решит исследовать, у агента есть возможность найти лучший вариант, но это также может привести к потере времени и ресурсов. С другой стороны, если агент решит использовать уже известное ему решение, он может упустить лучший вариант.

Практическое применение

Вот несколько способов Исследователи искусственного интеллекта применили модели обучения с подкреплением для решения реальных проблем:

Обучение с подкреплением в беспилотных автомобилях

Обучение с подкреплением применялось к беспилотным автомобилям, чтобы улучшить их способность безопасно и эффективно управлять автомобилем. Эта технология позволяет автономным автомобилям учиться на своих ошибках и постоянно корректировать свое поведение, чтобы оптимизировать свою работу.

обучение с подкреплением, используемое для самостоятельного вождения

Например, лондонская компания AI Уэйв успешно применил модель глубокого обучения с подкреплением для автономного вождения. В своем эксперименте они использовали функцию вознаграждения, которая максимизирует количество времени, в течение которого транспортное средство работает без участия водителя на борту.

Модели RL также помогают автомобилям принимать решения, основанные на окружающей среде, например, избегать препятствий или сливаться с дорожным движением. Эти модели должны найти способ преобразовать сложную среду, окружающую автомобиль, в репрезентативное пространство состояний, которое может понять модель.

Обучение с подкреплением в робототехнике

Исследователи также использовали обучение с подкреплением для разработки роботов, способных выполнять сложные задачи. С помощью этих моделей RL роботы могут наблюдать за своей средой и принимать решения на основе своих наблюдений.

Например, было проведено исследование по использованию моделей обучения с подкреплением, позволяющих двуногим роботам научиться от самостоятельно.

Обучение с подкреплением учит робота ходить

Исследователи считают RL ключевым методом в области робототехники. Обучение с подкреплением дает роботам-агентам основу для обучения сложным действиям, которые в противном случае было бы трудно спроектировать.

Обучение с подкреплением в играх

Модели RL также использовались, чтобы научиться играть в видеоигры. Агентов можно настроить так, чтобы они учились на своих ошибках и постоянно повышали свою эффективность в игре.

Исследователи уже разработали агентов, которые могут играть в такие игры, как шахматы, го и покер. В 2013, DeepMind использовали глубокое обучение с подкреплением, чтобы позволить модели научиться играть в игры Atari с нуля.

Многие настольные и видеоигры имеют ограниченное пространство для действий и четко определенную конкретную цель. Эти черты работают на пользу модели RL. Методы RL могут быстро перебирать миллионы смоделированных игр, чтобы изучить оптимальные стратегии для достижения победы.

Заключение

Будь то обучение ходьбе или обучение игре в видеоигры, модели RL доказали свою полезность в качестве основы искусственного интеллекта для решения проблем, требующих принятия сложных решений.

Поскольку технология продолжает развиваться, как исследователи, так и разработчики будут продолжать находить новые приложения, использующие преимущества самообучающейся способности модели.

В каких практических приложениях, по вашему мнению, может помочь обучение с подкреплением?

Обучение с подкреплением: ИИ, который учится на своих ошибках

Что такое обучение с подкреплением?