Vamos imaginar que você está tentando ensinar um robô a andar. Ao contrário de ensinar um computador a prever preços de ações ou categorizar imagens, não temos realmente um grande conjunto de dados que possamos usar para treinar nosso robô.
Embora possa vir naturalmente para você, caminhar é, na verdade, uma ação muito complexa. Andar um passo normalmente envolve dezenas de músculos diferentes trabalhando juntos. O esforço e as técnicas usadas para caminhar de um lugar para outro também dependem de vários fatores, inclusive se você está carregando algo ou se há uma inclinação ou outras formas de obstáculos.
Em cenários como esses, podemos usar um método conhecido como aprendizado por reforço ou RL. Com RL, você pode definir um objetivo específico que deseja que seu modelo resolva e gradualmente deixar que o modelo aprenda por conta própria como realizá-lo.
Neste artigo, exploraremos os fundamentos do aprendizado por reforço e como podemos aplicar a estrutura de RL a uma variedade de problemas diferentes no mundo real.
O que é aprendizado por reforço?
O aprendizado por reforço refere-se a um subconjunto particular de aprendizado de máquina que se concentra em encontrar soluções recompensando comportamentos desejados e punindo comportamentos indesejados.
Ao contrário do aprendizado supervisionado, o método de aprendizado por reforço normalmente não possui um conjunto de dados de treinamento que forneça a saída correta para uma determinada entrada. Na ausência de dados de treinamento, o algoritmo deve encontrar a solução por tentativa e erro. O algoritmo, ao qual normalmente nos referimos como um agente, deve encontrar a solução por si só, interagindo com o meio Ambiente.
Os pesquisadores decidem quais resultados específicos recompensar e o que o algoritmo é capaz de fazer. Todo açao o algoritmo leva receberá algum tipo de feedback que avalia o desempenho do algoritmo. Durante o processo de treinamento, o algoritmo eventualmente encontrará a solução ótima para resolver um determinado problema.
Um Exemplo Simples: Grade 4×4
Vamos dar uma olhada em um exemplo simples de um problema que podemos resolver com o aprendizado por reforço.
Suponha que tenhamos uma grade 4 × 4 como nosso ambiente. Nosso agente é colocado aleatoriamente em um dos quadrados junto com alguns obstáculos. A grade deve conter três obstáculos “poço” que devem ser evitados e uma única recompensa “diamante” que o agente deve encontrar. A descrição completa do nosso ambiente é conhecida como ambiente do estado.
Em nosso modelo RL, nosso agente pode se mover para qualquer quadrado adjacente, desde que não haja obstáculos bloqueando-o. O conjunto de todas as ações válidas em um determinado ambiente é conhecido como espaço de ação. O objetivo do nosso agente é encontrar o caminho mais curto para a recompensa.
Nosso agente usará o método de aprendizado por reforço para encontrar o caminho para o diamante que requer a menor quantidade de etapas. Cada passo certo dará uma recompensa ao robô e cada passo errado subtrairá a recompensa do robô. O modelo calcula a recompensa total quando o agente atinge o diamante.
Agora que definimos o agente e o ambiente, também devemos definir as regras a serem usadas para determinar a próxima ação que o agente executará, dado seu estado atual e o ambiente.
Políticas e recompensas
Em um modelo de aprendizado por reforço, um Privacidade refere-se à estratégia utilizada por um agente para atingir seus objetivos. A política do agente é o que decide o que o agente deve fazer em seguida, dado o estado atual do agente e seu ambiente.
O agente deve avaliar todas as políticas possíveis para ver qual política é a ideal.
Em nosso exemplo simples, pousar em um espaço vazio retornará um valor de -1. Quando o agente cair em um espaço com a recompensa de diamantes, ele receberá um valor de 10. Com esses valores, podemos comparar as diferentes políticas usando um função útil U.
Vamos agora comparar a utilidade das duas políticas vistas acima:
você(UMA) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Os resultados mostram que a Política A é o melhor caminho para encontrar a recompensa. Assim, o agente usará o Caminho A sobre a Política B.
Exploração vs. Exploração
O problema de trade-off exploração x exploração no aprendizado por reforço é um dilema que um agente deve enfrentar durante o processo de decisão.
Os agentes devem se concentrar em explorar novos caminhos ou opções ou devem continuar explorando as opções que já conhecem?
Se o agente optar por explorar, existe a possibilidade de o agente encontrar uma opção melhor, mas também corre o risco de perder tempo e recursos. Por outro lado, se o agente optar por explorar a solução que já conhece, poderá perder uma opção melhor.
Aplicações Práticas
Aqui estão algumas maneiras Pesquisadores de IA aplicaram modelos de aprendizado por reforço para resolver problemas do mundo real:
Aprendizagem por Reforço em Carros Autônomos
O aprendizado por reforço foi aplicado a carros autônomos, a fim de melhorar sua capacidade de dirigir com segurança e eficiência. A tecnologia permite que carros autônomos aprendam com seus erros e ajustem continuamente seu comportamento para otimizar seu desempenho.
Por exemplo, a empresa de IA com sede em Londres Wayve aplicou com sucesso um modelo de aprendizado por reforço profundo para direção autônoma. Em seu experimento, eles usaram uma função de recompensa que maximiza a quantidade de tempo em que o veículo funciona sem que o motorista a bordo forneça informações.
Os modelos RL também ajudam os carros a tomar decisões com base no ambiente, como evitar obstáculos ou entrar no trânsito. Esses modelos devem encontrar uma maneira de converter o ambiente complexo em torno de um carro em um espaço de estado representativo que o modelo possa entender.
Aprendizagem por Reforço em Robótica
Os pesquisadores também têm usado o aprendizado por reforço para desenvolver robôs que podem aprender tarefas complexas. Por meio desses modelos de RL, os robôs são capazes de observar seu ambiente e tomar decisões com base em suas observações.
Por exemplo, pesquisas foram feitas sobre o uso de modelos de aprendizado por reforço para permitir que robôs bípedes aprendam a andar por conta deles.
Os pesquisadores consideram a RL um método chave no campo da robótica. O aprendizado por reforço fornece aos agentes robóticos uma estrutura para aprender ações sofisticadas que, de outra forma, seriam difíceis de projetar.
Aprendizagem por Reforço em Jogos
Os modelos RL também foram usados para aprender a jogar videogames. Os agentes podem ser configurados para aprender com seus erros e melhorar continuamente seu desempenho no jogo.
Pesquisadores já desenvolveram agentes que podem jogar jogos como xadrez, Go e pôquer. Em 2013, DeepMind usou o Deep Reinforcement Learning para permitir que um modelo aprendesse a jogar jogos do Atari do zero.
Muitos jogos de tabuleiro e videogames têm um espaço de ação limitado e um objetivo concreto bem definido. Essas características funcionam como vantagem para o modelo RL. Os métodos RL podem iterar rapidamente em milhões de jogos simulados para aprender as estratégias ideais para alcançar a vitória.
Conclusão
Quer se trate de aprender a andar ou aprender a jogar videogames, os modelos RL provaram ser estruturas de IA úteis para resolver problemas que exigem uma tomada de decisão complexa.
À medida que a tecnologia continua a evoluir, pesquisadores e desenvolvedores continuarão a encontrar novos aplicativos que aproveitem a capacidade de autoaprendizagem do modelo.
Em quais aplicações práticas você acha que o aprendizado por reforço pode ajudar?
Deixe um comentário