Imaxinemos que estás intentando ensinarlle a un robot a camiñar. A diferenza de ensinarlle a un ordenador como predecir os prezos das accións ou categorizar imaxes, realmente non temos un gran conxunto de datos que poidamos utilizar para adestrar o noso robot.
Aínda que che resulte natural, camiñar é en realidade unha acción moi complexa. Camiñar un paso normalmente implica decenas de músculos diferentes que traballan xuntos. O esforzo e as técnicas empregadas para camiñar dun lugar a outro tamén dependen de diversos factores, entre eles se estás cargando algo ou se hai pendente ou outras formas de obstáculos.
En escenarios coma estes, podemos utilizar un método coñecido como aprendizaxe por reforzo ou RL. Con RL, pode definir un obxectivo específico que quere que o seu modelo resolva e deixar que o modelo aprenda por si só como logralo.
Neste artigo, exploraremos os conceptos básicos da aprendizaxe por reforzo e como podemos aplicar o marco RL a unha variedade de problemas diferentes no mundo real.
Que é a aprendizaxe por reforzo?
A aprendizaxe por reforzo refírese a un subconxunto particular de aprendizaxe de máquina que se centra en buscar solucións premiando as condutas desexadas e castigando as condutas non desexadas.
A diferenza da aprendizaxe supervisada, o método de aprendizaxe por reforzo normalmente non ten un conxunto de datos de adestramento que proporcione a saída correcta para unha entrada determinada. En ausencia de datos de adestramento, o algoritmo debe atopar a solución a través de proba e erro. O algoritmo, ao que normalmente nos referimos como an axente, debe atopar a solución por si mesmo interactuando co ambiente.
Os investigadores deciden que resultados concretos recompensar e o que o algoritmo é capaz de facer. Cada acción a toma do algoritmo recibirá algún tipo de feedback que puntuará o ben que o está facendo. Durante o proceso de adestramento, o algoritmo finalmente atopará a solución óptima para resolver un determinado problema.
Un exemplo sinxelo: cuadrícula 4×4
Vexamos un exemplo sinxelo dun problema que podemos resolver coa aprendizaxe por reforzo.
Supoñamos que temos unha cuadrícula 4×4 como o noso entorno. O noso axente colócase ao azar nunha das prazas xunto con algúns obstáculos. A grella deberá conter tres obstáculos "pozo" que deben evitarse e unha única recompensa "diamante" que o axente debe atopar. A descrición completa do noso medio coñécese como o do medio foron.
No noso modelo RL, o noso axente pode moverse a calquera cadrado adxacente sempre que non haxa obstáculos que o bloqueen. O conxunto de todas as accións válidas nun ambiente determinado coñécese como o espazo de acción. O obxectivo do noso axente é atopar o camiño máis curto para a recompensa.
O noso axente utilizará o método de aprendizaxe por reforzo para atopar o camiño cara ao diamante que require a menor cantidade de pasos. Cada paso correcto dará ao robot unha recompensa e cada paso incorrecto restará a recompensa do robot. O modelo calcula a recompensa total unha vez que o axente chega ao diamante.
Agora que definimos o axente e o ambiente, tamén debemos definir as regras a utilizar para determinar a seguinte acción que realizará o axente tendo en conta o seu estado actual e o ambiente.
Políticas e recompensas
Nun modelo de aprendizaxe por reforzo, a política refírese á estratexia utilizada por un axente para lograr os seus obxectivos. A política do axente é a que decide o que o axente debe facer despois dado o estado actual do axente e o seu entorno.
O axente debe avaliar todas as políticas posibles para ver cal é a óptima.
No noso exemplo sinxelo, aterrar nun espazo baleiro devolverá un valor de -1. Cando o axente aterriza nun espazo coa recompensa de diamante, recibirá un valor de 10. Usando estes valores, podemos comparar as diferentes políticas mediante un función de utilidade U.
Comparemos agora a utilidade das dúas políticas vistas anteriormente:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Os resultados mostran que a Política A é o mellor camiño para atopar a recompensa. Así, o axente usará a ruta A sobre a política B.
Exploración vs. Explotación
O problema de compensación entre exploración e explotación na aprendizaxe por reforzo é un dilema ao que debe enfrontarse un axente durante o proceso de decisión.
Os axentes deberían centrarse en explorar novos camiños ou opcións ou deberían seguir explotando as opcións que xa coñecen?
Se o axente decide explorar, existe a posibilidade de que o axente atope unha opción mellor, pero tamén pode arriscarse a perder tempo e recursos. Por outra banda, se o axente decide explotar a solución que xa coñece, pode perder unha opción mellor.
Aplicacións Prácticas
Aquí tes algunhas formas Investigadores de IA aplicaron modelos de aprendizaxe por reforzo para resolver problemas do mundo real:
Aprendizaxe de reforzo en coches autónomos
Aplicouse a aprendizaxe de reforzo aos coches autónomos co fin de mellorar a súa capacidade de conducir con seguridade e eficiencia. A tecnoloxía permite que os coches autónomos aprendan dos seus erros e axusten continuamente o seu comportamento para optimizar o seu rendemento.
Por exemplo, a empresa de intelixencia artificial con sede en Londres Wayve aplicou con éxito un modelo de aprendizaxe de reforzo profundo para a condución autónoma. No seu experimento, utilizaron unha función de recompensa que maximiza a cantidade de tempo que o vehículo funciona sen que o condutor a bordo proporcionase información.
Os modelos RL tamén axudan aos coches a tomar decisións en función do medio ambiente, como evitar obstáculos ou incorporarse ao tráfico. Estes modelos deben atopar un xeito de converter o ambiente complexo que rodea un coche nun espazo estatal representativo que o modelo poida comprender.
Aprendizaxe de Reforzo en Robótica
Os investigadores tamén estiveron utilizando a aprendizaxe por reforzo para desenvolver robots que poidan aprender tarefas complexas. A través destes modelos RL, os robots poden observar o seu entorno e tomar decisións en función das súas observacións.
Por exemplo, realizouse investigacións sobre o uso de modelos de aprendizaxe por reforzo para permitir que os robots bípedos aprendan a facelo andar pola súa conta.
Os investigadores consideran que a RL é un método clave no campo da robótica. A aprendizaxe por reforzo ofrece aos axentes robóticos un marco para aprender accións sofisticadas que, doutro xeito, poden ser difíciles de diseñar.
Aprendizaxe de reforzo no xogo
Os modelos RL tamén se utilizaron para aprender a xogar aos videoxogos. Pódense configurar axentes para aprender dos seus erros e mellorar continuamente o seu rendemento no xogo.
Os investigadores xa desenvolveron axentes que poden xogar a xogos como o xadrez, o Go e o póker. En 2013, Deepmind utilizou Deep Reinforcement Learning para permitir que un modelo aprenda a xogar aos xogos de Atari desde cero.
Moitos xogos de mesa e videoxogos teñen un espazo de acción limitado e un obxectivo concreto ben definido. Estes trazos funcionan en beneficio do modelo RL. Os métodos RL poden iterar rapidamente sobre millóns de xogos simulados para aprender as estratexias óptimas para lograr a vitoria.
Conclusión
Xa sexa aprender a camiñar ou aprender a xogar a videoxogos, os modelos RL demostraron ser marcos de IA útiles para resolver problemas que requiren toma de decisións complexas.
A medida que a tecnoloxía siga evolucionando, tanto investigadores como desenvolvedores seguirán atopando novas aplicacións que aproveiten a capacidade de autodidacta do modelo.
Con que aplicacións prácticas cres que pode axudar a aprendizaxe por reforzo?
Deixe unha resposta