深度强化学习

什么是深度强化学习？

深度强化学习 (Deep RL) 是机器学习的一个子集，它结合了强化学习和深度学习。深度强化学习解决了使计算代理能够通过结合来自非结构化输入数据的深度学习来学习决策的问题，而无需手动设计状态空间。即使输入量很大，深度强化学习算法也能决定为优化目标而执行哪些操作。

深度强化学习的关键概念

深度强化学习的构建块包括所有能够增强学习和代理决策能力的方面。有效的环境是由以下元素协作产生的：

智能体 - 学习者和决策者，与环境互动。该智能体根据策略采取行动并获得经验。
环境 - 智能体外部的系统，智能体与其进行通信。它根据智能体的行为以奖励或惩罚的形式向智能体提供反馈。
状态 - 表示环境在特定时刻的当前情况或条件，智能体根据该状态做出决策。
动作 - 智能体做出的改变系统状态的选择。
策略 - 指导智能体决策的计划，将状态映射到动作。
价值函数 - 估计智能体在遵循特定策略时，从给定状态可以获得的预期累积奖励。
模型 - 表示环境的动态，允许智能体模拟动作和状态的潜在结果以进行规划。
探索-利用策略 - 一种决策方法，平衡探索新的动作以进行学习与利用已知的动作以获得即时奖励。
学习算法 - 智能体根据与环境交互获得的经验更新其价值函数或策略的方法。
经验回放 - 一种技术，在训练期间随机抽取先前存储的经验，以增强学习稳定性并减少连续事件之间的相关性。

Explore our latest online courses and learn new skills at your own pace. Enroll and become a certified expert to boost your career.

深度强化学习是如何工作的？

深度强化学习使用人工神经网络，它由多层节点组成，这些节点复制人脑中神经元的运作方式。这些节点通过反复试验的方法处理和传递信息，以确定有效的结果。

在深度强化学习中，术语策略是指计算机根据从与环境交互中获得的反馈而制定的策略。这些策略通过考虑当前状态和动作集（包括各种选项）来帮助计算机做出决策。选择这些选项后，会进行一个称为“搜索”的过程，计算机在此过程中评估不同的动作并观察结果。这种协调学习、决策和表征的能力可以为简单地理解人脑如何运作提供新的见解。

架构是深度强化学习与众不同的地方，它允许深度强化学习像人脑一样学习。它包含多层神经网络，这些神经网络能够高效地处理未标记和非结构化数据。

深度强化学习算法列表

以下是深度强化学习中一些重要算法的列表：

深度Q网络
深度Q学习
双深度Q学习
演员-评论家方法
深度确定性策略梯度

深度强化学习的应用

一些使用深度强化学习的突出领域包括：

游戏

深度强化学习用于开发远远超出人类能力范围的游戏。使用深度强化学习设计的游戏包括雅达利2600游戏、围棋、扑克等等。

机器人控制

这使用了强大的对抗性强化学习，其中智能体学习在存在施加系统干扰的对手的情况下运行。目标是制定处理干扰的最佳策略。人工智能机器人具有广泛的应用，包括制造、供应链自动化、医疗保健等等。

自动驾驶汽车

深度强化学习是自动驾驶中涉及的关键概念之一。自动驾驶场景涉及理解环境、交互式代理、协商和动态决策，这只有通过强化学习才能实现。

医疗保健

深度强化学习使医疗保健领域取得了许多进步，例如个性化药物治疗以优化患者的医疗保健，特别是对于患有慢性疾病的患者。

强化学习和深度强化学习的区别

下表突出显示了强化学习 (RL) 和深度强化学习 (Deep RL) 之间的关键区别：

特征	强化学习	深度强化学习
定义	它是机器学习的一个子集，它使用反复试验的方法进行决策。	它是强化学习的一个子集，它集成了深度学习以进行更复杂的决策。
函数逼近	它使用表格方法等简单方法进行值估计。	它使用神经网络进行值估计，允许更复杂的表示。
状态表示	它依赖于手动设计的特征来表示环境。	它自动从原始输入数据中学习相关特征。
复杂性	它对于状态/动作空间较小的简单环境有效。	它在高维、复杂的环境中有效。
性能	它在简单的环境中有效，但在具有大型和连续空间的环境中却难以应对。	它擅长复杂的任务，包括电子游戏或机器人控制。
应用	可用于简单的游戏等基本任务。	可用于高级应用，如自动驾驶、游戏和机器人控制。

打印页面