在机器学习的强化学习中,Q 表格如何帮助确定“智能体”的下一个动作?


我们之前了解了 Q 学习是如何工作的,借助 Q 值和 Q 表格。Q 学习是一种强化学习算法,包含一个需要采取行动以达到最优解的“智能体”。这是借助作为神经网络存在的 Q 表格实现的。它有助于采取使奖励最大化的正确步骤,从而达到最优解。

现在,让我们看看智能体如何使用策略来决定它需要采取的下一步以实现最佳结果。

  • 策略会考虑所有可能采取的动作的 Q 值,这些动作基于智能体当前所处的状态。

  • Q 值越高,动作越好。

  • 有时,如果策略已经拥有采取下一步所需的信息,则会选择忽略 Q 表格。

  • 相反,它会选择采取另一个随机动作并寻找更高的潜在奖励。

  • 当剧集开始时,智能体采取随机动作,因为 Q 表格尚未填充,并且不会存在太多信息。

  • 但随着时间的推移,Q 表格逐渐被填充。

由于 Q 表格被填充,智能体对如何与环境交互以获得最大奖励有了更多了解。

在智能体采取每个新动作后,都会借助贝尔曼方程更新 Q 值。

重要的是要理解,更新的 Q 值是基于新获得的奖励和相对于新状态的 Q 值的最大可能值。

Q 表格非常庞大,因为它包含棋盘上所有可能的配置和移动。这将占用系统中大量的内存。因此,使用神经网络来存储 Q 表格,帮助为每个状态向智能体建议最佳动作。

由于使用了神经网络,强化学习算法在 Dota 2 和围棋等任务上取得了更好的性能。

更新于: 2020 年 12 月 10 日

198 次查看

启动你的 职业生涯

通过完成课程获得认证

开始
广告

© . All rights reserved.