强化学习 – 人工智能的另一个有力分支


“强化学习”是人工智能(机器学习)领域的一个分支。受行为心理学启发,该领域使软件代理和机器能够确定行为,并据此采取行动,最终最大化其性能。简单来说,计算机可以通过**实验**以及环境对如何做事做出的反应来自行推断/学习,并在每次改进时不断适应,从而实现最大化。例如,训练计算机控制游戏、安排工作(如电梯调度)以及控制肢体。

强化学习 (RL)

RL 由心理学家爱德华·桑代克在 100 多年前记录下来。这项技术并非让程序员告诉它该做什么,而是让计算机/软件代理自行执行任务,通过缓慢地找出最佳方法。交互存在于两个元素之间——环境和学习代理。在此过程中,代理会受到环境的奖励,称为强化信号。在奖励的基础上,代理利用知识并为下一个行动做出选择。从本质上讲,计算机可以像人类一样学习,而无需明确的训练。强化学习过程中也会有对人工智能体的惩罚,但通过不断地尝试和错误,代理会学习并找到最佳方法(基于原始输入)。

不断进行选择,同时区分好坏。表示由 Q 网络完成,该网络估计总奖励。随着深度学习的结合,这项技术现在变得越来越强大,深度学习使用大型模拟神经网络来识别数据中的模式/趋势,并执行计算机的学习任务。


最好的例子之一是 Alphabet 的子公司 DeepMind 开发的 AlphaGo,它在 2016 年击败了世界上最优秀的围棋人类棋手。这使得全世界都开始认识到 RL 的重要性,因为用代码实现极其复杂的围棋游戏实际上是不可能的。同样,对于大型和复杂的任务,计算变得不可行。从能够以安全和精确的方式执行 RL 的自我改进汽车,到无需手动编程即可使用的机器人,这项技术还可以确定数据中心设备所需的配置。RL 的其他参与者包括 Mobileye、OpenAI、Google 和 Uber。Google 和 DeepMind 还共同努力提高其数据中心的能源效率。这是通过一种 RL 算法实现的,该算法可以从收集到的数据中学习,通过模拟进行实验,并最终建议何时以及如何操作冷却系统。

RL 代理的“因果关系”步骤

  • 人工智能体检测输入状态(RL 首先识别并制定问题)。
  • 下一步由要采取的策略决定。
  • 然后执行操作,并提供奖励/惩罚以及相应的强化。
  • 记录信息状态。
  • 最后,可以进一步调整最佳操作以提高结果。

RL 系统的无监督、开发和探索

RL 是一种无监督学习形式,其中代理被留置在提供的环境中学习,并通过逐渐调整来学习。此外,RL 代理试图通过开发和探索过程来学习。开发意味着一旦代理取得了满意的结果并获得奖励,它就可以再次利用相同的技术来取得结果。探索意味着 RL 代理可能会尝试不同的策略,这些策略可能带来更好的奖励和认可,从而探索各种情况。这两种策略必须共同发挥作用。

局限性

RL 也存在局限性。能够存储值的内存成本可能很复杂,因为问题本身就很复杂。此外,类似的行为也发生得太频繁,而必须引入模块化以防止重复。感知的限制因素(感知混淆)最终会影响算法的功能。


商业利益

RL 最终是最大化性能的机器学习算法。它可以广泛应用于

**制造业** – 机器人在拣选货物并将其放置在正确位置时使用 RL – 一旦正确完成,它们就会以精确的方式继续该方法;

**库存管理** – 空间利用对于电子商务和零售商至关重要 – RL 允许使用可以减少库存和检索产品时间的算法,从而提高仓库运营效率;

**金融** – RL 有助于评估交易策略和优化财务目标;

**配送管理** – RL 解决拆分配送车辆路径问题 – Q 学习通过为合适的客户提供一辆车辆来进行管理;

**动态定价** – RL 通过需求、供应和与客户的互动来促进动态定价的策略/优化;

**电子商务个性化** – RL 有助于分析消费者行为,并根据兴趣定制产品和服务;

**医疗行业** – RL 算法解决了动态治疗方案 (DTR) 问题,并处理临床数据以根据患者的输入决定治疗策略。

RL 确实具有创新性和目标导向性,重点是从与环境的交互中学习,从而推动业务价值。它可能是现实人工智能的浮力。

更新于:2020 年 1 月 23 日

364 次查看

开启你的职业生涯

通过完成课程获得认证

开始
广告