- 机器学习基础
- ML - 首页
- ML - 简介
- ML - 入门指南
- ML - 基本概念
- ML - 生态系统
- ML - Python库
- ML - 应用
- ML - 生命周期
- ML - 必备技能
- ML - 实施
- ML - 挑战与常见问题
- ML - 局限性
- ML - 真实案例
- ML - 数据结构
- ML - 数学基础
- ML - 人工智能
- ML - 神经网络
- ML - 深度学习
- ML - 获取数据集
- ML - 分类数据
- ML - 数据加载
- ML - 数据理解
- ML - 数据准备
- ML - 模型
- ML - 监督学习
- ML - 无监督学习
- ML - 半监督学习
- ML - 强化学习
- ML - 监督学习与无监督学习对比
- 机器学习数据可视化
- ML - 数据可视化
- ML - 直方图
- ML - 密度图
- ML - 箱线图
- ML - 相关矩阵图
- ML - 散点矩阵图
- 机器学习统计学
- ML - 统计学
- ML - 均值、中位数、众数
- ML - 标准差
- ML - 百分位数
- ML - 数据分布
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假设
- 机器学习中的回归分析
- ML - 回归分析
- ML - 线性回归
- ML - 简单线性回归
- ML - 多元线性回归
- ML - 多项式回归
- 机器学习中的分类算法
- ML - 分类算法
- ML - 逻辑回归
- ML - K近邻算法(KNN)
- ML - 朴素贝叶斯算法
- ML - 决策树算法
- ML - 支持向量机
- ML - 随机森林
- ML - 混淆矩阵
- ML - 随机梯度下降
- 机器学习中的聚类算法
- ML - 聚类算法
- ML - 基于中心的聚类
- ML - K均值聚类
- ML - K中心点聚类
- ML - 均值漂移聚类
- ML - 层次聚类
- ML - 基于密度的聚类
- ML - DBSCAN聚类
- ML - OPTICS聚类
- ML - HDBSCAN聚类
- ML - BIRCH聚类
- ML - 亲和传播
- ML - 基于分布的聚类
- ML - 凝聚层次聚类
- 机器学习中的降维
- ML - 降维
- ML - 特征选择
- ML - 特征提取
- ML - 向后消除法
- ML - 前向特征构造
- ML - 高相关性过滤器
- ML - 低方差过滤器
- ML - 缺失值比率
- ML - 主成分分析
- 强化学习
- ML - 强化学习算法
- ML - 利用与探索
- ML - Q学习
- ML - REINFORCE算法
- ML - SARSA强化学习
- ML - 演员-评论家方法
- 深度强化学习
- ML - 深度强化学习
- 量子机器学习
- ML - 量子机器学习
- ML - 使用Python的量子机器学习
- 机器学习杂项
- ML - 性能指标
- ML - 自动工作流程
- ML - 提升模型性能
- ML - 梯度提升
- ML - 自举汇聚(Bagging)
- ML - 交叉验证
- ML - AUC-ROC曲线
- ML - 网格搜索
- ML - 数据缩放
- ML - 训练和测试
- ML - 关联规则
- ML - Apriori算法
- ML - 高斯判别分析
- ML - 成本函数
- ML - 贝叶斯定理
- ML - 精度和召回率
- ML - 对抗性
- ML - 堆叠
- ML - 轮次
- ML - 感知器
- ML - 正则化
- ML - 过拟合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 数据泄露
- ML - 机器学习的货币化
- ML - 数据类型
- 机器学习 - 资源
- ML - 快速指南
- ML - 速查表
- ML - 面试问题
- ML - 有用资源
- ML - 讨论
深度强化学习
什么是深度强化学习?
深度强化学习 (Deep RL) 是机器学习的一个子集,它结合了强化学习和深度学习。深度强化学习解决了使计算代理能够通过结合来自非结构化输入数据的深度学习来学习决策的问题,而无需手动设计状态空间。即使输入量很大,深度强化学习算法也能决定为优化目标而执行哪些操作。
深度强化学习的关键概念
深度强化学习的构建块包括所有能够增强学习和代理决策能力的方面。有效的环境是由以下元素协作产生的:
- 智能体 - 学习者和决策者,与环境互动。该智能体根据策略采取行动并获得经验。
- 环境 - 智能体外部的系统,智能体与其进行通信。它根据智能体的行为以奖励或惩罚的形式向智能体提供反馈。
- 状态 - 表示环境在特定时刻的当前情况或条件,智能体根据该状态做出决策。
- 动作 - 智能体做出的改变系统状态的选择。
- 策略 - 指导智能体决策的计划,将状态映射到动作。
- 价值函数 - 估计智能体在遵循特定策略时,从给定状态可以获得的预期累积奖励。
- 模型 - 表示环境的动态,允许智能体模拟动作和状态的潜在结果以进行规划。
- 探索-利用策略 - 一种决策方法,平衡探索新的动作以进行学习与利用已知的动作以获得即时奖励。
- 学习算法 - 智能体根据与环境交互获得的经验更新其价值函数或策略的方法。
- 经验回放 - 一种技术,在训练期间随机抽取先前存储的经验,以增强学习稳定性并减少连续事件之间的相关性。
深度强化学习是如何工作的?
深度强化学习使用人工神经网络,它由多层节点组成,这些节点复制人脑中神经元的运作方式。这些节点通过反复试验的方法处理和传递信息,以确定有效的结果。
在深度强化学习中,术语策略是指计算机根据从与环境交互中获得的反馈而制定的策略。这些策略通过考虑当前状态和动作集(包括各种选项)来帮助计算机做出决策。选择这些选项后,会进行一个称为“搜索”的过程,计算机在此过程中评估不同的动作并观察结果。这种协调学习、决策和表征的能力可以为简单地理解人脑如何运作提供新的见解。
架构是深度强化学习与众不同的地方,它允许深度强化学习像人脑一样学习。它包含多层神经网络,这些神经网络能够高效地处理未标记和非结构化数据。
深度强化学习算法列表
以下是深度强化学习中一些重要算法的列表:
- 深度Q网络
- 深度Q学习
- 双深度Q学习
- 演员-评论家方法
- 深度确定性策略梯度
深度强化学习的应用
一些使用深度强化学习的突出领域包括:
游戏
深度强化学习用于开发远远超出人类能力范围的游戏。使用深度强化学习设计的游戏包括雅达利2600游戏、围棋、扑克等等。
机器人控制
这使用了强大的对抗性强化学习,其中智能体学习在存在施加系统干扰的对手的情况下运行。目标是制定处理干扰的最佳策略。人工智能机器人具有广泛的应用,包括制造、供应链自动化、医疗保健等等。
自动驾驶汽车
深度强化学习是自动驾驶中涉及的关键概念之一。自动驾驶场景涉及理解环境、交互式代理、协商和动态决策,这只有通过强化学习才能实现。
医疗保健
深度强化学习使医疗保健领域取得了许多进步,例如个性化药物治疗以优化患者的医疗保健,特别是对于患有慢性疾病的患者。
强化学习和深度强化学习的区别
下表突出显示了强化学习 (RL) 和深度强化学习 (Deep RL) 之间的关键区别:
特征 | 强化学习 | 深度强化学习 |
---|---|---|
定义 | 它是机器学习的一个子集,它使用反复试验的方法进行决策。 | 它是强化学习的一个子集,它集成了深度学习以进行更复杂的决策。 |
函数逼近 | 它使用表格方法等简单方法进行值估计。 | 它使用神经网络进行值估计,允许更复杂的表示。 |
状态表示 | 它依赖于手动设计的特征来表示环境。 | 它自动从原始输入数据中学习相关特征。 |
复杂性 | 它对于状态/动作空间较小的简单环境有效。 | 它在高维、复杂的环境中有效。 |
性能 | 它在简单的环境中有效,但在具有大型和连续空间的环境中却难以应对。 | 它擅长复杂的任务,包括电子游戏或机器人控制。 |
应用 | 可用于简单的游戏等基本任务。 | 可用于高级应用,如自动驾驶、游戏和机器人控制。 |