机器学习中的情景记忆和深度Q网络详解

引言

近年来，深度神经网络 (DNN) 在强化学习算法中取得了显著进展。然而，为了获得理想的结果，这些算法存在样本效率低下的问题。一种很有前景的解决方法是基于情景记忆的强化学习，它使智能体能够快速掌握最佳动作。情景记忆深度Q网络 (EMDQN) 是一种受生物启发的 RL 算法，它利用情景记忆来增强智能体训练。研究表明，EMDQN 显著提高了样本效率，从而提高了发现有效策略的可能性。它通过仅使用传统方法所需交互次数 1/5 的 Atari 游戏中取得了最先进的性能，超过了常规 DQN 和其他基于情景记忆的 RL 算法。

理解样本效率低下的挑战

在 RL 研究中，深度神经网络通过将卷积神经网络与 Q 学习相结合，在 Atari 游戏中实现了人类水平的性能，从而彻底改变了研究。尽管取得了这些成就，但 RL 算法仍然面临样本效率低下的挑战。例如，DQN 需要与环境进行数百万次的交互才能学习和泛化出强大的策略。在 DQN 中，学习速度较慢以确保稳定性，但这会导致学习速度变慢。

情景控制：一种数据高效的方法

研究提出情景控制 (EC) 作为一种数据高效的决策问题解决方案。在 EC 中，在训练期间会记住最有益的情景，并在评估期间重播。与参数值函数不同，EC 依赖于查找表来存储和更新情景记忆。与基于 DNN 的 RL 方法相比，基于表的情景控制存在泛化能力有限和内存可扩展性问题。

介绍情景记忆深度Q网络 (EMDQN)

本文的目的是介绍 EMDQN，这是一种利用情景记忆来增强智能体训练的新型 RL 算法。人脑通过多个相互作用和竞争以制定最佳策略的学习系统来做出决策和控制运动。EMDQN 结合了 DQN 的泛化能力和情景控制。EMDQN 通过将情景记忆信息提炼到参数模型中来实现优越的学习效率。与现有方法相比，我们的算法能够更快、更少地使用训练数据来学习鲁棒的策略。此外，EMDQN 还解决了基于 Q 学习的智能体中 Q 值过高估计的问题。

在 EMDQN 中，纹状体作为推理目标，海马体作为记忆目标。这些目标作为智能体的学习目标。

EMDQN 使用的损失函数定义如下：

L = α(Qθ - S)^2 + β(Qθ - H)^2

这里，Qθ 是由 θ 参数化的值函数，它表示在给定状态下采取动作的估计值。

推理目标 S 计算如下：

S(st, at) = rt + γ max(Qθ(st+1, a')), for all possible actions a'

这里，rt 是在状态 st 中采取动作 at 后收到的即时奖励，γ 是折扣因子，max(Qθ(st+1, a')) 表示下一个状态 st+1 中所有可能动作的最大估计值。

记忆目标 H 定义为最佳记忆回报：

H(st, at) = max(Ri(st, at)), for i ∈ {1, 2, ..., E}

这里，Ri(st, at) 表示在第 i 个情景中，在状态 st 中采取动作 at 时获得的未来回报。E 表示智能体经历的总情景数。

损失函数结合了值函数 Qθ 与推理目标 S 之间的平方差，以及 Qθ 与记忆目标 H 之间的平方差。权重 α 和 β 控制每个目标在整体损失函数中的相对重要性。

通过最小化此损失函数，智能体旨在根据即时奖励和最佳记忆回报来改进值函数 Qθ 的估计。这允许智能体快速抓住高回报策略，同时仍然受益于神经网络的慢速优化以进行状态泛化。

EMDQN 的优势

通常，情景记忆用于直接控制，但我们旨在通过利用它来提高 DQN 的效率。DQN 的几个关键方面可以从情景记忆中受益。

奖励传播缓慢 - 像 Q 学习这样的传统值引导方法提供的更新基于一步或附近的多步奖励，导致数据效率有限。为了克服这个问题，我们建议使用蒙特卡洛 (MC) 回报作为学习目标。MC 回报提供了更好的奖励传播，但它引入了更高的方差。我们的挑战是有效地利用 MC 回报，而不会因高方差而影响稳定性。
单一学习模型 - 大多数 RL 算法依赖于单一学习模型。可扩展的深度 RL 方法（如 DQN 和 A3C）模拟人脑中的纹状体并学习神经决策系统。另一方面，像 MFEC 和 NEC 这样的基于表格的方法模拟海马体并将经验存储在记忆系统中。在本文中，我们认为在训练期间结合这两种方法可以更好地复制人脑的工作机制。
样本效率低 - 与真实环境交互在时间和资源方面可能代价高昂。传统的 DQN 算法需要与模拟环境进行数百万次交互才能收敛。虽然像优先经验回放和基于模型的 RL 这样的技术可以在一定程度上减轻采样成本，但仍然需要更有效的方法来利用样本并增强学习。

为了应对这些挑战，我们提出了情景记忆深度 Q 网络 (EMDQN)，它利用基于表格的情景记忆来加速智能体的训练。通过将情景记忆集成到学习过程中，我们的智能体可以快速抓住有价值的经验并利用它们进行更有效的学习。

总之，我们的研究重点是利用情景记忆来增强 DQN 的奖励传播、学习模型架构和样本效率。通过利用情景记忆，EMDQN 有可能加速训练过程并提高 RL 智能体的整体性能。

结论

情景记忆深度 Q 网络 (EMDQN) 引入了一种受生物启发的 RL 算法，它利用情景记忆来改进智能体训练。通过结合 DQN 和情景控制的优势，EMDQN 提供了增强的样本效率，并在训练时间和准确性方面优于现有方法。这种算法在使 RL 更适用于现实世界场景方面具有巨大的潜力。凭借其在 Atari 游戏中的出色表现，EMDQN 为更高效、更有效的强化学习算法铺平了道路。

Bhavani Vangipurapu

更新于：2023年10月17日

88 次浏览

开启你的职业生涯

完成课程获得认证

开始学习