强化学习中的贝尔曼方程是什么?


任何接触过强化学习 (RL) 的人都知道,贝尔曼方程是 RL 的一个重要组成部分,并在整个 RL 中以多种形式出现。通过合并几个 RL 函数,贝尔曼方程有助于产生更计算化和更有效的结果。在这篇文章中,我们将首先回顾一些与强化学习相关的基本术语,然后深入探讨强化学习中常用的方程,最后深入研究贝尔曼方程。

什么是强化学习?

强化学习是一种机器学习形式,它教会模型在解决问题时选择最佳行动方案。我们使用问题描述作为指导来创建一个环境。模型与这个环境交互并自行寻找解决方案,无需人工干预。只需在它朝着目标迈进时给予正向奖励,在它远离目标时给予负向奖励,就能帮助它朝着正确的方向前进。让我们用一个例子来更好地理解这一点。

回想一下,当你小时候第一次学习骑自行车时的情景。你的监护人或父母帮助你保持平衡,并偶尔给出指示。最重要的是,他们在学习过程中并没有完全监督你。相反,你独自犯错,从中学习,并不断尝试。经过足够的练习,你的大脑最终适应了这些新信息,你终于能够在两侧保持平衡地骑自行车了。

然而,这个学习过程既不是完全监督的,也不是完全无监督的。相反,这个学习是比较松散的控制。记住,强化学习 (RL) 是一个与监督学习和无监督学习不同的领域。当你从自行车上摔下来时,你意识到这不是正确的骑行方式,所以你尝试了其他方法。当你能够保持平衡更长时间时,你意识到自己正在做正确的事情。强化学习也遵循同样的原理。RL 是一种“反复试验”的学习方法。虽然可以直接监督,但我们可以通过反馈(奖励和惩罚)来弥补它,以增强学习效果。

强化学习的基本术语

在理解了强化学习 (RL) 的基本思想之后,让我们来理解强化学习中使用的基本术语,这最终将引导我们得出 RL 的正式定义。

动作

在现实生活中,智能体是指尝试以最佳方式完成某事的事物。在我们的例子中,学习骑自行车的年轻孩子就是智能体。

状态

智能体在每个时间步长执行的操作就是现实世界中的动作。对于学习走路的孩子来说,动作就是“行走”。

奖励

在现实生活中,奖励只不过是根据智能体的行为发送给智能体的一种反馈形式。对那些行为成功且有可能导致成功的智能体给予正向奖励,反之亦然。这类似于一个孩子在成功地骑自行车并保持平衡更长时间后,从年长的孩子那里得到赞扬。

环境

在现实生活中,环境指的是智能体的外部环境或智能体运行的实际环境。

Explore our latest online courses and learn new skills at your own pace. Enroll and become a certified expert to boost your career.

理解贝尔曼方程

贝尔曼方程是强化学习的基本构成要素之一。该方程向我们展示了,鉴于我们当前的状况,并且假设我们在当前以及每个后续步骤中都尽力而为,我们可以预期获得的长期收益。

贝尔曼方程可以用来确定我们是否已经达到目标,因为强化学习的主要目标是最大化长期奖励。当选择最佳行动方案时,当前状态的值就会显现出来。对于确定性情况,贝尔曼方程如下所示。(此处应插入贝尔曼方程公式)

V(s)=maxa(R(s,a)+γV(s′))

该方程包含三个部分:

  • 最大函数,选择最大化奖励的动作 (max a)

  • 折扣因子是一个可以修改的超参数,用来突出长期效益或让模型关注唾手可得的成果,并促进最佳短期解决方案。(gamma)

  • 根据所选动作和当前状态计算奖励的函数 (R(s, a))

贝尔曼方程是一个递归函数,因为它自身调用 (s' 是下一步的状态)。

当前步骤中计算的函数与未来的步骤相关而不是之前的步骤,这似乎是矛盾的。

这是因为只有在我们达到终止状态后才能计算动作的值。在这个阶段,我们反转这个过程,在每个步骤中应用折扣因子并添加奖励函数,直到我们到达第一步。最终的组成部分是总奖励。

结论

强化学习本质上是机器学习的一个子集,它关乎于做出逻辑决策,选择在特定情况下采取的最佳性能或行动方案。它还可以帮助你使用贝尔曼方程来提高一部分总收益。

更新于:2022年12月1日

5000+ 次浏览

启动你的职业生涯

通过完成课程获得认证

开始学习
广告