Skip to main content
QUICK REVIEW

[论文解读] Distributed Prioritized Experience Replay

Dan Horgan, John Quan|arXiv (Cornell University)|Mar 2, 2018
Reinforcement Learning in Robotics参考文献 25被引用 411
一句话总结

本文提出 Ape-X,一种将行动与学习解耦的分布式架构,并使用集中式的优先经验回放来扩展深度强化学习,实现了 Atari 的最新结果和连续控制的强劲性能。

ABSTRACT

We propose a distributed architecture for deep reinforcement learning at scale, that enables agents to learn effectively from orders of magnitude more data than previously possible. The algorithm decouples acting from learning: the actors interact with their own instances of the environment by selecting actions according to a shared neural network, and accumulate the resulting experience in a shared experience replay memory; the learner replays samples of experience and updates the neural network. The architecture relies on prioritized experience replay to focus only on the most significant data generated by the actors. Our architecture substantially improves the state of the art on the Arcade Learning Environment, achieving better final performance in a fraction of the wall-clock training time.

研究动机与目标

  • 通过增加数据生成量和选择性经验回放来推动深度强化学习的扩展性。
  • 提出一种将执行与学习解耦的分布式架构,并使用带优先级的集中回放。
  • 在 Atari 和连续控制基准上演示可扩展性与性能提升。
  • 分析影响可扩展性的因素,如回放容量、时效性和策略多样性。

提出的方法

  • 提出 Ape-X 架构:包含多个执行者并行收集经验,单个学习者更新网络参数。
  • 使用带比例优先级的集中回放记忆体来抽样信息丰富的经验。
  • 在执行端在线计算优先级,避免优先级更新带来的延迟。
  • 应用带有 double Q-learning、多步回报、对偶网络的 DQN 变体与 DDPG(Ape-X DPG)的离线学习。
  • 执行者定期从学习者获取最新参数;学习更新和优先级更新异步运行。
  • 在 Atari 上用 360 个执行者以及 DeepMind Control Suite 的连续控制任务进行评估。
  • 报告在不同执行者数量、回放容量、时效性和数据生成策略下的可扩展性分析。

实验结果

研究问题

  • RQ1一个将数据生成与学习解耦并使用优先回放的分布式架构,是否能提高样本效率和最终表现?
  • RQ2数据生成执行者数量、回放内存容量以及策略多样性如何影响离散与连续控制任务的扩展性与性能?
  • RQ3在执行端在线计算优先级是否有助于扩展性而不降低数据生成速度?
  • RQ4Ape-X 是否能够在 Atari 上达到最先进的结果并在连续控制基准上获得有竞争力的性能,而无需逐游戏的超参数调优?

主要发现

  • Ape-X 在 57 款 Atari 游戏上实现了最先进的中位数人类标准化分数,且比基线具有更快的墙钟训练时间和更高的最终性能。
  • 增加执行者数量对 Atari 的性能提升具有一致性:从 8 个到 256 个执行者,同时保持学习者更新不变。
  • 更大的回放记忆容量带来边际到中等的收益,表明从长期保留高优先级经验中获益。
  • 优先回放结合大量执行者之间的多样化行为策略有助于探索并避免过拟合,从而带来更好的性能。
  • Ape-X DQN 采用 double Q-learning、多步回报和对偶网络,表现出色;Ape-X DPG 将其扩展到连续控制,在各任务上具有竞争力。
  • 在连续控制领域,增加执行者数量有助于实现比标准 DDPG 基线更快的学习和更高的最终性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。