什么是强化学习?它与监督学习和无监督学习有什么区别?


在强化学习方法中,训练好的智能体与特定环境交互,并根据该环境的当前状态采取行动。

强化学习的工作原理如下:

  • 首先,你需要为智能体准备一组特定的策略。
  • 现在让智能体观察环境的当前状态。
  • 根据智能体的观察结果,选择最优策略,并执行合适的动作。
  • 根据采取的动作,智能体将获得奖励或惩罚。
  • 如有必要,更新步骤 1 中使用的策略集。重复步骤 1-4 的过程,直到智能体学习并采用最优策略。

如我们所知,监督学习方法在训练过程中同时使用训练数据及其关联的输出。但无监督学习方法不需要任何标签或响应以及训练数据,它们从给定的原始数据中学习模式和关系。而在强化学习方法中,智能体以离散步骤与特定环境交互。

如果我们谈论输出,监督学习方法的预测基于类别类型,无监督学习方法发现潜在模式,但在强化学习方法中,存在一个奖励和动作系统,学习智能体在其中工作。

更新于:2021年11月24日

721 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告