Нека си представим, че се опитвате да научите робот как да ходи. За разлика от обучението на компютър как да прогнозира цените на акциите или да категоризира изображенията, ние всъщност не разполагаме с голям набор от данни, който можем да използваме, за да обучим нашия робот.
Въпреки че може да изглежда естествено за вас, ходенето всъщност е много сложно действие. Ходенето на крачка обикновено включва десетки различни мускули, работещи заедно. Усилията и техниките, използвани за ходене от едно място на друго, също зависят от различни фактори, включително дали носите нещо или дали има наклон или други форми на препятствия.
В сценарии като тези можем да използваме метод, известен като обучение с подсилване или RL. С RL можете да определите конкретна цел, която искате вашият модел да реши, и постепенно да оставите модела да се научи сам как да я постигне.
В тази статия ще проучим основите на обучението с подсилване и как можем да приложим RL рамката към множество различни проблеми в реалния свят.
Какво е обучение с подсилване?
Обучението с подсилване се отнася до определено подмножество от машинно обучение който се фокусира върху намирането на решения чрез възнаграждаване на желаното поведение и наказване на нежеланото поведение.
За разлика от контролираното обучение, методът на обучение с подсилване обикновено няма набор от данни за обучение, който осигурява правилния изход за даден вход. При липса на данни за обучение, алгоритъмът трябва да намери решението чрез проба и грешка. Алгоритъмът, който обикновено наричаме an агент, трябва да намери решението сам, като взаимодейства с заобикаляща среда.
Изследователите решават за какви конкретни резултати награда и какво може да направи алгоритъмът. Всеки действие алгоритъмът ще получи някаква форма на обратна връзка, която оценява колко добре се справя алгоритъмът. По време на процеса на обучение алгоритъмът в крайна сметка ще намери оптималното решение за решаване на определен проблем.
Прост пример: решетка 4×4
Нека да разгледаме един прост пример за проблем, който можем да разрешим с учене за укрепване.
Да предположим, че имаме решетка 4×4 като наша среда. Нашият агент е поставен на случаен принцип в един от квадратите заедно с няколко препятствия. Решетката съдържа три препятствия „яма“, които трябва да се избягват, и една награда „диамант“, която агентът трябва да намери. Пълното описание на нашата среда е известно като околната среда са.
В нашия RL модел нашият агент може да се придвижи до всеки съседен квадрат, стига да няма препятствия, които да го блокират. Наборът от всички валидни действия в дадена среда е известен като пространство за действие. Целта на нашия агент е да намери най-краткия път до наградата.
Нашият агент ще използва метода на обучение с подсилване, за да намери пътя до диаманта, който изисква най-малко стъпки. Всяка правилна стъпка ще даде на робота награда и всяка грешна стъпка ще извади наградата на робота. Моделът изчислява общата награда, след като агентът достигне диаманта.
Сега, след като дефинирахме агента и средата, трябва също така да дефинираме правилата, които да използваме за определяне на следващото действие, което агентът ще предприеме предвид текущото му състояние и средата.
Политики и награди
В модел на обучение с подсилване, a политика се отнася до стратегията, използвана от агента за постигане на целите му. Политиката на агента е това, което решава какво следва да направи агентът, като се има предвид текущото състояние на агента и неговата среда.
Агентът трябва да оцени всички възможни политики, за да види коя политика е оптимална.
В нашия прост пример кацането на празно място ще върне стойност -1. Когато агентът попадне на пространство с диамантената награда, той ще получи стойност 10. Използвайки тези стойности, можем да сравним различните политики, използвайки функция на полезност U.
Нека сега сравним полезността на двете политики, показани по-горе:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Резултатите показват, че Политика А е по-добрият начин за намиране на наградата. По този начин агентът ще използва път A вместо политика B.
Проучване срещу експлоатация
Проблемът с компромиса между изследване и експлоатация при обучението с подсилване е дилема, пред която агентът трябва да се изправи по време на процеса на вземане на решение.
Трябва ли агентите да се фокусират върху проучване на нови пътища или опции или трябва да продължат да използват опциите, които вече знаят?
Ако агентът избере да проучи, има възможност агентът да намери по-добър вариант, но също така може да рискува загуба на време и ресурси. От друга страна, ако агентът избере да използва решението, което вече знае, може да пропусне по-добра опция.
Практически приложения
Ето няколко начина Изследователи на ИИ са приложили модели за обучение за укрепване за решаване на проблеми от реалния свят:
Обучение за засилване в самоуправляващите се автомобили
Укрепващото обучение е приложено към самоуправляващите се автомобили, за да се подобри способността им да шофират безопасно и ефективно. Технологията позволява на автономните автомобили да се учат от грешките си и непрекъснато да коригират поведението си, за да оптимизират работата си.
Например базираната в Лондон AI компания Wayve успешно приложи модел на обучение с дълбоко укрепване за автономно шофиране. В техния експеримент те са използвали функция за възнаграждение, която максимизира времето, през което превозното средство работи без шофьорът на борда да предоставя информация.
RL моделите също помагат на автомобилите да вземат решения въз основа на околната среда, като избягване на препятствия или вливане в трафика. Тези модели трябва да намерят начин да преобразуват сложната среда около автомобила в представително пространство на състоянието, което моделът може да разбере.
Обучение с подсилване в роботиката
Изследователите също са използвали обучение с подсилване, за да разработят роботи, които могат да научават сложни задачи. Чрез тези RL модели роботите могат да наблюдават околната среда и да вземат решения въз основа на своите наблюдения.
Например, направени са изследвания върху използването на модели за обучение с подсилване, за да се позволи на двукраките роботи да се научат как да разходка сами по себе си.
Изследователите смятат RL за ключов метод в областта на роботиката. Обучението с подсилване дава на роботизираните агенти рамка за научаване на сложни действия, които иначе може да са трудни за проектиране.
Обучение с подсилване в игрите
RL моделите също са били използвани, за да се научите как да играете видео игри. Агентите могат да бъдат настроени да се учат от грешките си и непрекъснато да подобряват представянето си в играта.
Изследователите вече са разработили агенти, които могат да играят игри като шах, го и покер. През 2013, DeepMind използва Deep Reinforcement Learning, за да позволи на модел да се научи как да играе игри Atari от нулата.
Много настолни игри и видео игри имат ограничено пространство за действие и добре дефинирана конкретна цел. Тези черти работят в полза на модела RL. RL методите могат бързо да повторят милиони симулирани игри, за да научат оптималните стратегии за постигане на победа.
Заключение
Независимо дали става въпрос за обучение как да ходите или за обучение как да играете видео игри, RL моделите са доказали, че са полезни AI рамки за решаване на проблеми, които изискват сложно вземане на решения.
Тъй като технологията продължава да се развива, както изследователите, така и разработчиците ще продължат да намират нови приложения, които се възползват от способността на модела да се самообучава.
С какви практически приложения смятате, че може да помогне обучението за засилване?
Оставете коментар