Навчання з підкріпленням: штучний інтелект, який вчиться на своїх помилках

Зміст[Сховати][Показати]

Що таке навчання з підкріпленням?
Простий приклад: сітка 4×4+-
- Правила та винагороди
- Розвідка проти експлуатації
практичне застосування+-
Висновок

Уявімо, що ви намагаєтеся навчити робота ходити. На відміну від навчання комп’ютера прогнозуванню цін на акції чи класифікації зображень, ми насправді не маємо великого набору даних, який ми можемо використовувати для навчання нашого робота.

Хоча це може здатися вам природним, але ходьба насправді є дуже складною дією. Ходьба кроком зазвичай залучає десятки різних м’язів, які працюють разом. Зусилля та техніка, які використовуються для переходу з одного місця в інше, також залежать від низки факторів, у тому числі від того, чи ви щось несете, чи є нахил чи інші форми перешкод.

У подібних сценаріях ми можемо використовувати метод, відомий як навчання з підкріпленням або RL. За допомогою RL ви можете визначити конкретну мету, яку має вирішити ваша модель, і поступово дозволити моделі самостійно навчитися її досягати.

У цій статті ми розглянемо основи навчання з підкріпленням і те, як ми можемо застосувати структуру RL до різноманітних проблем у реальному світі.

Що таке навчання з підкріпленням?

Навчання з підкріпленням відноситься до певної підмножини навчання за допомогою машини який зосереджується на пошуку рішень шляхом винагороди за бажану поведінку та покарання за небажану.

діаграма основи навчання з підкріпленням

На відміну від навчання під наглядом, метод навчання з підкріпленням зазвичай не має навчального набору даних, який забезпечує правильний вихід для даного входу. За відсутності навчальних даних алгоритм повинен знаходити рішення методом проб і помилок. Алгоритм, який ми зазвичай називаємо агент, має знайти рішення самостійно, взаємодіючи з навколишнє середовище.

Дослідники вирішують, до яких конкретних результатів винагороду і на що здатний алгоритм. кожен дію алгоритм отримує певну форму зворотного зв’язку, яка оцінює, наскільки добре працює алгоритм. У процесі навчання алгоритм зрештою знайде оптимальне рішення для вирішення певної задачі.

Простий приклад: сітка 4×4

Давайте розглянемо простий приклад проблеми, яку ми можемо вирішити за допомогою навчання з підкріпленням.

Припустимо, у нас є сітка 4×4 як наше середовище. Наш агент випадковим чином розміщується в одному з квадратів разом із кількома перешкодами. Сітка повинна містити три «ями» перешкоди, які потрібно уникати, і одну «діамантову» винагороду, яку повинен знайти агент. Повний опис нашого середовища відомий як середовище були.

Навчання з підкріпленням покладається на агента, який взаємодіє з імітованим середовищем

У нашій моделі RL наш агент може переміщатися до будь-якої сусідньої клітини, якщо немає перешкод, які їх блокують. Набір усіх дійсних дій у заданому середовищі називається простір дії. Мета нашого агента - знайти найкоротший шлях до винагороди.

агент має простір дій або набір дійсних дій у даному стані

Наш агент використовуватиме метод навчання з підкріпленням, щоб знайти шлях до діаманта, який вимагає найменшої кількості кроків. За кожен правильний крок робот отримає винагороду, а за кожен неправильний крок призведе до зменшення винагороди. Модель розраховує загальну винагороду, коли агент досягає діаманта.

Тепер, коли ми визначили агента та середовище, ми також повинні визначити правила, які використовуватимуться для визначення наступної дії, яку виконуватиме агент, враховуючи його поточний стан та середовище.

Правила та винагороди

У моделі навчання з підкріпленням a політика відноситься до стратегії, яку використовує агент для досягнення своїх цілей. Політика агента - це те, що вирішує, що агент повинен робити далі, враховуючи поточний стан агента та його середовища.

Агент повинен оцінити всі можливі політики, щоб побачити, яка політика є оптимальною.

оцінка політики

У нашому простому прикладі приземлення на порожнє місце поверне значення -1. Коли агент потрапляє на поле з алмазною винагородою, він отримує значення 10. Використовуючи ці значення, ми можемо порівняти різні політики за допомогою функція корисності U.

Давайте тепер порівняємо корисність двох наведених вище політик:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Результати показують, що політика А є кращим шляхом до отримання винагороди. Таким чином, агент використовуватиме шлях A замість політики B.

Розвідка проти експлуатації

Проблема компромісу дослідження проти експлуатації в навчанні з підкріпленням є дилемою, з якою агент повинен зіткнутися під час процесу прийняття рішення.

Чи повинні агенти зосередитися на вивченні нових шляхів або варіантів, чи вони повинні продовжувати використовувати варіанти, які вони вже знають?

Якщо агент вирішить досліджувати, він може знайти кращий варіант, але він також може втратити час і ресурси. З іншого боку, якщо агент вирішить використати рішення, яке йому вже відомо, він може втратити кращий варіант.

практичне застосування

Ось кілька способів Дослідники ШІ застосували моделі навчання з підкріпленням для вирішення проблем реального світу:

Навчання з підкріпленням у безпілотних автомобілях

Навчання з підкріпленням було застосовано до самокерованих автомобілів, щоб покращити їх здатність керувати безпечно та ефективно. Ця технологія дозволяє автономним автомобілям вчитися на своїх помилках і постійно коригувати свою поведінку, щоб оптимізувати роботу.

навчання з підкріпленням, яке використовується для самостійного водіння

Наприклад, лондонська компанія AI Wayve успішно застосував модель навчання з глибоким підкріпленням для автономного водіння. У своєму експерименті вони використовували функцію винагороди, яка максимізує кількість часу, протягом якого автомобіль працює без водія на борту, який надає вхідні дані.

Моделі RL також допомагають автомобілям приймати рішення залежно від навколишнього середовища, наприклад, уникати перешкод або включатися в рух. Ці моделі повинні знайти спосіб перетворити складне середовище, що оточує автомобіль, у репрезентативний простір стану, який модель може зрозуміти.

Навчання з підкріпленням у робототехніці

Дослідники також використовували навчання з підкріпленням для розробки роботів, які можуть вивчати складні завдання. За допомогою цих моделей RL роботи можуть спостерігати за навколишнім середовищем і приймати рішення на основі своїх спостережень.

Наприклад, було проведено дослідження щодо використання моделей навчання з підкріпленням, щоб дозволити двоногим роботам навчитися ходити самостійно.

навчання з підкріпленням навчання робота ходінню

Дослідники вважають RL ключовим методом у сфері робототехніки. Навчання з підкріпленням дає роботам-агентам структуру для вивчення складних дій, які інакше може бути важко розробити.

Навчання з підкріпленням в грі

Моделі RL також використовувалися, щоб навчитися грати у відеоігри. Агенти можуть бути налаштовані вчитися на своїх помилках і постійно покращувати свою продуктивність у грі.

Дослідники вже розробили агенти, які можуть грати в такі ігри, як шахи, го та покер. У 2013 році Deepmind використовував Deep Reinforcement Learning, щоб дозволити моделі навчитися грати в ігри Atari з нуля.

Багато настільних і відеоігор мають обмежений простір дії та чітко визначену конкретну мету. Ці риси працюють на користь моделі RL. Методи RL можуть швидко повторювати мільйони змодельованих ігор, щоб дізнатися оптимальні стратегії для досягнення перемоги.

Висновок

Незалежно від того, чи це навчання ходити, чи навчання грати у відеоігри, RL-моделі виявилися корисними структурами штучного інтелекту для вирішення проблем, які потребують складного прийняття рішень.

Оскільки технологія продовжує розвиватися, і дослідники, і розробники продовжуватимуть знаходити нові програми, які використовують переваги здатності моделі до самонавчання.

Які практичні застосування, на вашу думку, може допомогти навчання з підкріпленням?

Навчання з підкріпленням: штучний інтелект, який вчиться на своїх помилках

Що таке навчання з підкріпленням?