在机器学习中,Q学习相对于强化学习是什么?
Q学习是一种强化学习算法,其中包含一个“智能体”,它采取必要的行动以达到最佳解决方案。
强化学习是“半监督”机器学习算法的一部分。当向强化学习算法提供输入数据集时,它会从中学习;否则,它会从经验和环境中学习。
当“强化学习智能体”执行一个动作时,它会根据预测是否正确(或采取正确的路径或采取成本最低的路径)而获得奖励或惩罚(奖励和惩罚是不同的,因为它们取决于可用的数据)。
如果“强化学习智能体”获得奖励,它会朝着相同的方向或类似的方向移动。否则,如果智能体受到惩罚,它就会理解它给出的解决方案并不正确或最佳,并且它需要找到更好的路径或输出。
强化学习智能体与其环境交互,对某些问题采取行动,从而确保奖励的总量最大化。
为了更好地理解这一点,让我们以国际象棋游戏为例。其思想是,游戏中的每个玩家都采取行动以获胜(进行将军、拿下对手的所有棋子等等)。“智能体”将移动棋子,并改变棋子的状态。我们可以将棋盘可视化为一个具有顶点的图,“智能体”从一个边移动到另一个边。
Q学习使用Q表来帮助智能体理解和决定它应该采取的下一步行动。Q表由行和列组成,其中每一行对应于每个棋盘配置,列对应于智能体可以采取的所有可能的移动(动作)。Q表还包含一个称为Q值的值,该值包含智能体在采取行动并从当前状态移动到下一个状态时获得的预期奖励。
它是如何工作的?
让我们了解它的工作原理。
在游戏开始时,Q表用随机值初始化。
接下来,对于每个回合:
- 观察智能体的初始状态
- 对于回合中的每个步骤:
- 根据Q表中存在的策略选择新的动作
- 观察智能体获得的奖励,并且智能体移动到新的状态
- 使用“贝尔曼方程”更新Q表中存在的Q值
这将持续到达到特定回合的最终阶段。
注意——在一个例子中,一个回合可以理解为一整局国际象棋。否则,它只是一个问题的完整工作。
广告