强化学习：从错误中学习的 AI

目录[隐藏][展示]

什么是强化学习？
一个简单的例子：4×4 网格+ -
- 政策与奖励
- 探索与开发
实际应用+ -
结论

假设您正在尝试教机器人如何走路。与教计算机如何预测股票价格或对图像进行分类不同，我们实际上并没有可用于训练机器人的大型数据集。

虽然这对您来说可能很自然，但步行实际上是一个非常复杂的动作。走一步通常需要几十块不同的肌肉一起工作。从一个地方步行到另一个地方所用的力气和技巧也取决于多种因素，包括您是否背着东西，是否有斜坡或其他形式的障碍物。

在这种情况下，我们可以使用一种称为强化学习或 RL 的方法。使用 RL，您可以定义一个您希望模型解决的特定目标，并逐渐让模型自行学习如何完成它。

在本文中，我们将探讨强化学习的基础知识以及如何将 RL 框架应用于现实世界中的各种不同问题。

什么是强化学习？

强化学习指的是特定的子集机器学习它着重于通过奖励期望的行为和惩罚不期望的行为来找到解决方案。

强化学习框架图

与监督学习不同，强化学习方法通常没有为给定输入提供正确输出的训练数据集。在没有训练数据的情况下，算法必须通过反复试验找到解决方案。该算法，我们通常将其称为 代理人，必须通过与环境.

研究人员决定什么特定的结果奖励以及算法能够做什么。每一个行动算法将收到某种形式的反馈，对算法的执行情况进行评分。在训练过程中，算法最终会找到解决某个问题的最优解。

一个简单的例子：4×4 网格

让我们看一个我们可以用强化学习解决的问题的简单例子。

假设我们有一个 4×4 的网格作为我们的环境。我们的代理被随机放置在其中一个方块中，并带有一些障碍物。网格应包含三个必须避免的“坑”障碍和代理人必须找到的一个“钻石”奖励。对我们环境的完整描述称为环境的州.

强化学习依赖于与模拟环境交互的代理

在我们的 RL 模型中，只要没有障碍物阻挡，我们的智能体就可以移动到任何相邻的方块。给定环境中所有有效操作的集合称为 动作空间. 我们代理的目标是找到通往奖励的最短路径。

代理在给定状态下有一个动作空间或一组有效动作

我们的智能体将使用强化学习方法找到需要最少步数的通往钻石的路径。每走对一步都会给机器人奖励，每走错一步都会减去机器人的奖励。一旦代理到达钻石，模型就会计算总奖励。

现在我们已经定义了代理和环境，我们还必须定义用于确定代理在给定其当前状态和环境的情况下将采取的下一个操作的规则。

政策与奖励

在强化学习模型中，政策是指代理人为实现其目标而使用的策略。代理的策略决定代理在给定代理及其环境的当前状态下下一步应该做什么。

代理必须评估所有可能的策略以查看哪个策略是最优的。

评估政策

在我们的简单示例中，降落在空白区域将返回值 -1。当智能体降落在带有钻石奖励的空间时，他们将获得 10 的值。使用这些值，我们可以使用 实用功能 U.

现在让我们比较上面看到的两个策略的效用：

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

结果表明，策略 A 是获得奖励的更好途径。因此，代理将使用路径 A 而不是策略 B。

探索与开发

强化学习中的探索与利用权衡问题是智能体在决策过程中必须面对的两难选择。

代理人应该专注于探索新的路径或选项，还是应该继续利用他们已经知道的选项？

如果智能体选择探索，则智能体有可能找到更好的选择，但也可能会浪费时间和资源。另一方面，如果代理选择利用它已知的解决方案，它可能会错过更好的选择。

实际应用

这是一些方法人工智能研究人员已应用强化学习模型来解决现实世界的问题：

自动驾驶汽车中的强化学习

强化学习已应用于自动驾驶汽车，以提高其安全高效驾驶的能力。该技术使自动驾驶汽车能够从错误中吸取教训并不断调整其行为以优化其性能。

用于自动驾驶的强化学习

例如，位于伦敦的 AI 公司韦韦已成功将深度强化学习模型应用于自动驾驶。在他们的实验中，他们使用了一个奖励函数来最大化车辆在没有驾驶员提供输入的情况下运行的时间。

RL 模型还可以帮助汽车根据环境做出决策，例如避开障碍物或汇入车流。这些模型必须找到一种方法，将汽车周围的复杂环境转换为模型可以理解的代表性状态空间。

机器人强化学习

研究人员也一直在使用强化学习来开发可以学习复杂任务的机器人。通过这些 RL 模型，机器人能够观察他们的环境并根据他们的观察做出决定。

例如，已有研究使用强化学习模型让双足机器人学习如何走他们自己。

强化学习教机器人走路

研究人员认为 RL 是机器人领域的关键方法。强化学习为机器人代理提供了一个框架来学习可能难以设计的复杂动作。

游戏中的强化学习

RL 模型也被用于学习如何玩电子游戏。可以设置代理从他们的错误中学习并不断提高他们在游戏中的表现。

研究人员已经开发出可以玩国际象棋、围棋和扑克等游戏的智能体。 2013年， DeepMind 使用深度强化学习让模型从头开始学习如何玩 Atari 游戏。

许多棋盘游戏和视频游戏都有有限的动作空间和明确定义的具体目标。这些特征对 RL 模型有利。 RL 方法可以快速迭代数百万个模拟游戏，以学习获得胜利的最佳策略。

结论

无论是学习如何走路还是学习如何玩视频游戏，RL 模型已被证明是有用的 AI 框架，可用于解决需要复杂决策制定的问题。

随着技术的不断发展，研究人员和开发人员都将继续寻找利用模型自学能力的新应用。

您认为强化学习可以帮助哪些实际应用？

强化学习：从错误中学习的人工智能

什么是强化学习？