Skip to main content
QUICK REVIEW

[论文解读] SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference

Lasse Espeholt, Raphaël Marinier|arXiv (Cornell University)|Oct 15, 2019
Reinforcement Learning in Robotics参考文献 42被引用 37
一句话总结

tldr: SEED 是一个具可扩展性的深度强化学习代理,具有集中推理和快速流式 RPC,能够在 Atari-57、DeepMind Lab 和 Google Research Football 的多任务上比 IMPALA 实现更短的墙钟时间和更低的成本,同时支持 V-trace 和 R2D2。

ABSTRACT

We present a modern scalable reinforcement learning agent called SEED (Scalable, Efficient Deep-RL). By effectively utilizing modern accelerators, we show that it is not only possible to train on millions of frames per second but also to lower the cost of experiments compared to current methods. We achieve this with a simple architecture that features centralized inference and an optimized communication layer. SEED adopts two state of the art distributed algorithms, IMPALA/V-trace (policy gradients) and R2D2 (Q-learning), and is evaluated on Atari-57, DeepMind Lab and Google Research Football. We improve the state of the art on Football and are able to reach state of the art on Atari-57 three times faster in wall-time. For the scenarios we consider, a 40% to 80% cost reduction for running experiments is achieved. The implementation along with experiments is open-sourced so results can be reproduced and novel ideas tried out.

研究动机与目标

  • 推动可扩展的强化学习,以高效利用现代加速器。
  • 提出带有集中推理和优化通信的 SEED 架构,以降低延迟和成本。
  • 在多样化基准上展示 SEED 与 V-trace(策略梯度)和 R2D2(Q 学习)。
  • 展示相对于 IMPALA 的加速和成本下降,同时保持性能。
  • 提供可开源实现以便可重复性和实验。

提出的方法

  • 采用 actor-learner 架构,在学习者处进行集中推理并在远程环境中运行。
  • 使用流式 gRPC 及批处理以最小化延迟和开销。
  • 在 SEED 中实现策略梯度学习的 V-trace。
  • 实现 R2D2 风格的 Q 学习,具有学习者驻留的回放缓冲区和可选的大规模回放。
  • 在 TPU 上对推理/训练核心分配进行调优,以最大化吞吐量和利用率。
  • 演示从 2 到 8 个 TPU v3 核心及以上的扩展,以加速训练。

实验结果

研究问题

  • RQ1SEED 能否在降低墙钟训练时间和运行成本的同时达到与 IMPALA 相当的状态-of-the-art 性能?
  • RQ2集中推理配合快速流式 RPC 是否能改善资源利用率和在多环境中的可扩展性?
  • RQ3在 SEED 的集中推理架构下,V-trace 和 R2D2 的实现如何在 Atari-57、DeepMind Lab 与 Google Research Football 的表现?
  • RQ4在 SEED 中,批量大小、核心分配和样本效率之间有哪些权衡?
  • RQ5SEED 的实现是否能够在云基础设施上开源且可重复?

主要发现

  • SEED 在评估任务上实现了比 IMPALA 更快的墙钟训练,例如在 DeepMind Lab 使用 2 TPU 核心时快 2.5x,随着核心数扩展到 TPU pod(2048 核)时最快可达 11x。
  • SEED 降低了 CPU 使用和总成本,在所考察场景中成本降低高达 80%。
  • 在 Atari-57 上,SEED 以墙钟时间比 R2D2 和相关代理快 3.1 倍达到状态-of-the-art 的中位数人类规范分数。
  • SEED 改善了 Google Research Football 的结果,在不同地图规模与奖励设置下超越先前的最优分数,并且随着核心增多实现了扩展。
  • 该架构在与 R2D2 相当的样本效率下保持可扩展性,达到每秒千万级帧的训练能力,但在非常大批量下样本效率存在一些权衡。
  • 在 Google Cloud 上的开源 SEED 实现促进了可重复性和实验性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。