Table des matières[Cacher][Montrer]
Imaginons que vous essayez d'apprendre à un robot à marcher. Contrairement à apprendre à un ordinateur à prédire les cours des actions ou à catégoriser les images, nous ne disposons pas vraiment d'un grand ensemble de données que nous pouvons utiliser pour entraîner notre robot.
Bien que cela puisse vous venir naturellement, marcher est en réalité une action très complexe. Faire un pas implique généralement des dizaines de muscles différents travaillant ensemble. L'effort et les techniques utilisées pour marcher d'un endroit à un autre dépendent également de divers facteurs, notamment si vous portez quelque chose ou s'il y a une pente ou d'autres formes d'obstacles.
Dans des scénarios comme ceux-ci, nous pouvons utiliser une méthode connue sous le nom d'apprentissage par renforcement ou RL. Avec RL, vous pouvez définir un objectif spécifique que vous souhaitez que votre modèle résolve et laisser progressivement le modèle apprendre par lui-même comment l'accomplir.
Dans cet article, nous explorerons les bases de l'apprentissage par renforcement et comment nous pouvons appliquer le cadre RL à une variété de problèmes différents dans le monde réel.
Qu'est-ce que l'apprentissage par renforcement ?
L'apprentissage par renforcement fait référence à un sous-ensemble particulier de machine learning qui se concentre sur la recherche de solutions en récompensant les comportements souhaités et en punissant les comportements indésirables.
Contrairement à l'apprentissage supervisé, la méthode d'apprentissage par renforcement ne dispose généralement pas d'un ensemble de données d'entraînement qui fournit la bonne sortie pour une entrée donnée. En l'absence de données d'apprentissage, l'algorithme doit trouver la solution par essais et erreurs. L'algorithme, que nous appelons généralement un agent, doit trouver la solution par lui-même en interagissant avec le sûr, heureux et sain.
Les chercheurs décident des résultats particuliers à récompenser et ce que l'algorithme est capable de faire. Chaque action l'algorithme reçoit une forme de rétroaction qui évalue la performance de l'algorithme. Au cours du processus de formation, l'algorithme trouvera éventuellement la solution optimale pour résoudre un certain problème.
Un exemple simple : Grille 4×4
Examinons un exemple simple de problème que nous pouvons résoudre avec l'apprentissage par renforcement.
Supposons que nous ayons une grille 4 × 4 comme environnement. Notre agent est placé au hasard dans l'une des cases avec quelques obstacles. La grille doit contenir trois obstacles "pit" qui doivent être évités et une seule récompense "diamant" que l'agent doit trouver. La description complète de notre environnement est connue sous le nom de Etat.
Dans notre modèle RL, notre agent peut se déplacer vers n'importe quelle case adjacente tant qu'aucun obstacle ne le bloque. L'ensemble de toutes les actions valides dans un environnement donné est connu sous le nom de espace d'action. Le but de notre agent est de trouver le chemin le plus court vers la récompense.
Notre agent utilisera la méthode d'apprentissage par renforcement pour trouver le chemin vers le diamant qui nécessite le moins d'étapes. Chaque bon pas donnera au robot une récompense et chaque mauvais pas soustraira la récompense du robot. Le modèle calcule la récompense totale une fois que l'agent atteint le diamant.
Maintenant que nous avons défini l'agent et l'environnement, nous devons également définir les règles à utiliser pour déterminer la prochaine action que l'agent effectuera compte tenu de son état actuel et de l'environnement.
Politiques et récompenses
Dans un modèle d'apprentissage par renforcement, un politique fait référence à la stratégie utilisée par un agent pour atteindre ses objectifs. La politique de l'agent est ce qui décide de ce que l'agent doit faire ensuite compte tenu de l'état actuel de l'agent et de son environnement.
L'agent doit évaluer toutes les politiques possibles pour voir quelle politique est optimale.
Dans notre exemple simple, atterrir sur un espace vide renverra une valeur de -1. Lorsque l'agent atterrit sur un espace avec la récompense en diamant, il recevra une valeur de 10. En utilisant ces valeurs, nous pouvons comparer les différentes politiques à l'aide d'un fonction d'utilité U.
Comparons maintenant l'utilité des deux politiques vues ci-dessus :
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Les résultats montrent que la politique A est la meilleure voie pour trouver la récompense. Ainsi, l'agent utilisera le chemin A plutôt que la politique B.
Exploration vs Exploitation
Le problème du compromis entre l'exploration et l'exploitation dans l'apprentissage par renforcement est un dilemme auquel un agent doit faire face au cours du processus de décision.
Les agents doivent-ils se concentrer sur l'exploration de nouvelles voies ou options ou doivent-ils continuer à exploiter les options qu'ils connaissent déjà ?
Si l'agent choisit d'explorer, il y a une possibilité pour l'agent de trouver une meilleure option, mais cela peut également risquer de perdre du temps et des ressources. D'un autre côté, si l'agent choisit d'exploiter la solution qu'il connaît déjà, il peut passer à côté d'une meilleure option.
Applications pratiques
Voici quelques moyens Chercheurs en IA ont appliqué des modèles d'apprentissage par renforcement pour résoudre des problèmes du monde réel :
Apprentissage par renforcement dans les voitures autonomes
L'apprentissage par renforcement a été appliqué aux voitures autonomes afin d'améliorer leur capacité à conduire de manière sûre et efficace. La technologie permet aux voitures autonomes d'apprendre de leurs erreurs et d'ajuster continuellement leur comportement afin d'optimiser leurs performances.
Par exemple, la société d'intelligence artificielle basée à Londres Wayve a appliqué avec succès un modèle d'apprentissage par renforcement profond pour la conduite autonome. Dans leur expérience, ils ont utilisé une fonction de récompense qui maximise la durée pendant laquelle le véhicule roule sans que le conducteur à bord ne fournisse d'entrée.
Les modèles RL aident également les voitures à prendre des décisions en fonction de l'environnement, comme éviter les obstacles ou se fondre dans la circulation. Ces modèles doivent trouver un moyen de convertir l'environnement complexe entourant une voiture en un espace d'état représentatif que le modèle peut comprendre.
Apprentissage par renforcement en robotique
Les chercheurs ont également utilisé l'apprentissage par renforcement pour développer des robots capables d'apprendre des tâches complexes. Grâce à ces modèles RL, les robots sont capables d'observer leur environnement et de prendre des décisions en fonction de leurs observations.
Par exemple, des recherches ont été menées sur l'utilisation de modèles d'apprentissage par renforcement pour permettre aux robots bipèdes d'apprendre à marcher par eux-même.
Les chercheurs considèrent le RL comme une méthode clé dans le domaine de la robotique. L'apprentissage par renforcement donne aux agents robotiques un cadre pour apprendre des actions sophistiquées qui pourraient autrement être difficiles à concevoir.
Apprentissage par renforcement dans le jeu
Les modèles RL ont également été utilisés pour apprendre à jouer à des jeux vidéo. Les agents peuvent être configurés pour apprendre de leurs erreurs et améliorer continuellement leurs performances dans le jeu.
Les chercheurs ont déjà développé des agents capables de jouer à des jeux tels que les échecs, le go et le poker. En 2013, DeepMind utilisé Deep Reinforcement Learning pour permettre à un modèle d'apprendre à jouer à des jeux Atari à partir de zéro.
De nombreux jeux de société et jeux vidéo ont un espace d'action limité et un objectif concret bien défini. Ces caractéristiques fonctionnent à l'avantage du modèle RL. Les méthodes RL peuvent parcourir rapidement des millions de jeux simulés pour apprendre les stratégies optimales pour remporter la victoire.
Conclusion
Qu'il s'agisse d'apprendre à marcher ou d'apprendre à jouer à des jeux vidéo, les modèles RL se sont avérés être des cadres d'IA utiles pour résoudre des problèmes nécessitant une prise de décision complexe.
Au fur et à mesure que la technologie évolue, les chercheurs et les développeurs continueront de trouver de nouvelles applications qui tirent parti de la capacité d'auto-apprentissage du modèle.
Selon vous, quelles applications pratiques l'apprentissage par renforcement peut-il aider ?
Soyez sympa! Laissez un commentaire