Skip to main content
QUICK REVIEW

[论文解读] Accelerated Methods for Deep Reinforcement Learning

Adam Stooke, Pieter Abbeel|arXiv (Cornell University)|Mar 7, 2018
Reinforcement Learning in Robotics参考文献 19被引用 97
一句话总结

本文提出一个统一的、基于 GPU 加速的多仿真器框架,用以并行化策略梯度和 Q 值方法,支持大批量大小和在 CPU+GPU 上的快速学习,并在 Atari/AE 上展示了显著的墙钟时间加速。

ABSTRACT

Deep reinforcement learning (RL) has achieved many recent successes, yet experiment turn-around time remains a key bottleneck in research and in practice. We investigate how to optimize existing deep RL algorithms for modern computers, specifically for a combination of CPUs and GPUs. We confirm that both policy gradient and Q-value learning algorithms can be adapted to learn using many parallel simulator instances. We further find it possible to train using batch sizes considerably larger than are standard, without negatively affecting sample complexity or final performance. We leverage these facts to build a unified framework for parallelization that dramatically hastens experiments in both classes of algorithm. All neural network computations use GPUs, accelerating both data collection and training. Our results include using an entire DGX-1 to learn successful strategies in Atari games in mere minutes, using both synchronous and asynchronous algorithms.

研究动机与目标

  • 通过利用现代多 CPU/GPU 硬件,动机在于解决深度强化学习实验周转时间的瓶颈。

提出的方法

  • 提出一个统一的并行强化学习框架,在多种算法中同时利用 GPU 进行推理与训练。
  • 实现针对 A2C、PPO、DQN 及其变体的多 GPU 同步与异步优化。
  • 在保持样本效率和最终性能的前提下,使学习时的批量大小显著大于标准。
  • 展示在多个并行仿真器上进行批量推理的可扩展采样。
  • 在 Arcade Learning Environment 的 Atari 上进行评估,以衡量吞吐量、加速比和学习质量。

实验结果

研究问题

  • RQ1策略梯度和 Q 值方法是否能够在大量并行仿真器实例下高效学习且不牺牲性能?
  • RQ2在保持样本效率和最终结果的前提下,训练批量多大才算足够大?
  • RQ3在多 GPU 规模化深度强化学习算法时,使用同步与异步更新的加速提升和瓶颈分别是什么?
  • RQ4在不同算法中,实际并行采样对学习稳定性和样本复杂度有何影响?

主要发现

  • 带有批量推理的同步采样可以实现高硬件利用率,在8-GPU服务器上对 Breakout 达到超过 35,000 次采样/秒。
  • 策略梯度和 Q 学习算法可以适应与许多并行仿真器一起学习,在 A2C、A3C、PPO、APPO 和 DQN 变体中游戏分数或样本效率没有实质性下降。
  • 每次更新可使用数百到数千条经验的大批量训练可以加速学习;一些算法在批量大小达到 2,048(用于 Categorical DQN)时仍保持性能,而其他算法在极大批量时表现出限制。
  • 异步与同步的多 GPU 方法带来显著的墙钟时间加速,策略梯度方法的学习在几分钟内就完成有意义的结果,而不是数小时。
  • 对于 Atari 实验,若干配置在训练时间上实现数量级级的缩减(例如 A2C/A3C 在数小时而非数日内完成 50M 步),同时保持与人类标准分数相当的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。