Índice del contenido[Esconder][Espectáculo]
Imaginemos que estás tratando de enseñarle a un robot a caminar. A diferencia de enseñarle a una computadora cómo predecir los precios de las acciones o categorizar imágenes, en realidad no tenemos un gran conjunto de datos que podamos usar para entrenar a nuestro robot.
Si bien puede resultarle natural, caminar es en realidad una acción muy compleja. Caminar un paso generalmente involucra docenas de músculos diferentes que trabajan juntos. El esfuerzo y las técnicas utilizadas para caminar de un lugar a otro también dependen de una variedad de factores, incluso si está cargando algo o si hay una pendiente u otro tipo de obstáculos.
En escenarios como estos, podemos utilizar un método conocido como aprendizaje por refuerzo o RL. Con RL, puede definir un objetivo específico que desea que su modelo resuelva y dejar que el modelo aprenda gradualmente cómo lograrlo.
En este artículo, exploraremos los conceptos básicos del aprendizaje por refuerzo y cómo podemos aplicar el marco RL a una variedad de problemas diferentes en el mundo real.
¿Qué es el aprendizaje por refuerzo?
El aprendizaje por refuerzo se refiere a un subconjunto particular de máquina de aprendizaje que se enfoca en encontrar soluciones recompensando los comportamientos deseados y castigando los comportamientos no deseados.
A diferencia del aprendizaje supervisado, el método de aprendizaje por refuerzo generalmente no tiene un conjunto de datos de entrenamiento que proporcione el resultado correcto para una entrada determinada. En ausencia de datos de entrenamiento, el algoritmo debe encontrar la solución a través de prueba y error. El algoritmo, al que normalmente nos referimos como agente, debe encontrar la solución por sí mismo interactuando con el entorno.
Los investigadores deciden qué resultados particulares recompensar y lo que el algoritmo es capaz de hacer. Cada DE ACTUAR! las tomas del algoritmo recibirán algún tipo de retroalimentación que puntúa qué tan bien lo está haciendo el algoritmo. Durante el proceso de entrenamiento, el algoritmo eventualmente encontrará la solución óptima para resolver un problema determinado.
Un ejemplo simple: Cuadrícula 4×4
Echemos un vistazo a un ejemplo simple de un problema que podemos resolver con el aprendizaje por refuerzo.
Supongamos que tenemos una cuadrícula de 4×4 como nuestro entorno. Nuestro agente se coloca aleatoriamente en uno de los cuadrados junto con algunos obstáculos. La cuadrícula contendrá tres obstáculos de "pozo" que deben evitarse y una sola recompensa de "diamante" que el agente debe encontrar. La descripción completa de nuestro medio ambiente se conoce como el medio ambiente. estado.
En nuestro modelo RL, nuestro agente puede moverse a cualquier casilla adyacente siempre que no haya obstáculos que la bloqueen. El conjunto de todas las acciones válidas en un entorno dado se conoce como espacio de acción. El objetivo de nuestro agente es encontrar el camino más corto hacia la recompensa.
Nuestro agente utilizará el método de aprendizaje por refuerzo para encontrar el camino hacia el diamante que requiere la menor cantidad de pasos. Cada paso correcto le dará una recompensa al robot y cada paso equivocado restará la recompensa del robot. El modelo calcula la recompensa total una vez que el agente alcanza el diamante.
Ahora que hemos definido el agente y el entorno, también debemos definir las reglas que se utilizarán para determinar la próxima acción que realizará el agente dado su estado actual y el entorno.
Políticas y recompensas
En un modelo de aprendizaje por refuerzo, un política se refiere a la estrategia utilizada por un agente para lograr sus objetivos. La política del agente es lo que decide qué debe hacer el agente a continuación dado el estado actual del agente y su entorno.
El agente debe evaluar todas las políticas posibles para ver cuál es la óptima.
En nuestro ejemplo simple, aterrizar en un espacio vacío devolverá un valor de -1. Cuando el agente aterriza en un espacio con la recompensa de diamantes, recibirá un valor de 10. Usando estos valores, podemos comparar las diferentes políticas usando un función de utilidad U.
Comparemos ahora la utilidad de las dos políticas vistas anteriormente:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Los resultados muestran que la Política A es el mejor camino para encontrar la recompensa. Por lo tanto, el agente utilizará la Ruta A sobre la Política B.
Exploración vs. Explotación
El problema de compensación de exploración frente a explotación en el aprendizaje por refuerzo es un dilema que un agente debe enfrentar durante el proceso de decisión.
¿Deberían los agentes centrarse en explorar nuevos caminos u opciones o deberían continuar explotando las opciones que ya conocen?
Si el agente elige explorar, existe la posibilidad de que encuentre una mejor opción, pero también puede correr el riesgo de perder tiempo y recursos. Por otro lado, si el agente elige explotar la solución que ya conoce, puede perderse una mejor opción.
Aplicaciones Prácticas
Aquí hay algunas formas Investigadores de IA han aplicado modelos de aprendizaje por refuerzo para resolver problemas del mundo real:
Aprendizaje por refuerzo en vehículos autónomos
El aprendizaje por refuerzo se ha aplicado a los automóviles autónomos para mejorar su capacidad de conducir de manera segura y eficiente. La tecnología permite que los autos autónomos aprendan de sus errores y ajusten continuamente su comportamiento para optimizar su desempeño.
Por ejemplo, la empresa de inteligencia artificial con sede en Londres Camino ha aplicado con éxito un modelo de aprendizaje de refuerzo profundo para la conducción autónoma. En su experimento, utilizaron una función de recompensa que maximiza la cantidad de tiempo que el vehículo funciona sin que el conductor a bordo proporcione información.
Los modelos RL también ayudan a los automóviles a tomar decisiones basadas en el entorno, como evitar obstáculos o incorporarse al tráfico. Estos modelos deben encontrar una manera de convertir el entorno complejo que rodea a un automóvil en un espacio de estado representativo que el modelo pueda comprender.
Aprendizaje por refuerzo en robótica
Los investigadores también han estado utilizando el aprendizaje por refuerzo para desarrollar robots que puedan aprender tareas complejas. A través de estos modelos RL, los robots pueden observar su entorno y tomar decisiones basadas en sus observaciones.
Por ejemplo, se han realizado investigaciones sobre el uso de modelos de aprendizaje por refuerzo para permitir que los robots bípedos aprendan a caminar por ellos mismos.
Los investigadores consideran que la RL es un método clave en el campo de la robótica. El aprendizaje por refuerzo brinda a los agentes robóticos un marco para aprender acciones sofisticadas que, de otro modo, podrían ser difíciles de diseñar.
Aprendizaje por refuerzo en los juegos
Los modelos RL también se han utilizado para aprender a jugar videojuegos. Los agentes pueden configurarse para aprender de sus errores y mejorar continuamente su desempeño en el juego.
Los investigadores ya han desarrollado agentes que pueden jugar juegos como ajedrez, Go y póquer. En 2013, Mente profunda utilizó Deep Reinforcement Learning para permitir que un modelo aprendiera a jugar juegos de Atari desde cero.
Muchos juegos de mesa y videojuegos tienen un espacio de acción limitado y un objetivo concreto bien definido. Estos rasgos funcionan en beneficio del modelo RL. Los métodos de RL pueden iterar rápidamente en millones de juegos simulados para aprender las estrategias óptimas para lograr la victoria.
Conclusión
Ya sea para aprender a caminar o aprender a jugar videojuegos, se ha demostrado que los modelos RL son marcos de IA útiles para resolver problemas que requieren una toma de decisiones compleja.
A medida que la tecnología siga evolucionando, tanto los investigadores como los desarrolladores seguirán encontrando nuevas aplicaciones que aprovechen la capacidad de autoaprendizaje del modelo.
¿Con qué aplicaciones prácticas cree que puede ayudar el aprendizaje por refuerzo?
Deje un comentario