Skip to main content
QUICK REVIEW

[论文解读] IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

Lasse Espeholt, Hubert Soyer|arXiv (Cornell University)|Feb 5, 2018
Reinforcement Learning in Robotics参考文献 3被引用 611
一句话总结

IMPALA 引入了一个可扩展的分布式深度强化学习代理,具有解耦的 actor 和 learner,以及 V-trace 的 off-policy 校正,在 DMLab-30 和 Atari-57 上实现了高数据吞吐量和强劲的多任务性能。

ABSTRACT

In this work we aim to solve a large collection of tasks using a single reinforcement learning agent with a single set of parameters. A key challenge is to handle the increased amount of data and extended training time. We have developed a new distributed agent IMPALA (Importance Weighted Actor-Learner Architecture) that not only uses resources more efficiently in single-machine training but also scales to thousands of machines without sacrificing data efficiency or resource utilisation. We achieve stable learning at high throughput by combining decoupled acting and learning with a novel off-policy correction method called V-trace. We demonstrate the effectiveness of IMPALA for multi-task reinforcement learning on DMLab-30 (a set of 30 tasks from the DeepMind Lab environment (Beattie et al., 2016)) and Atari-57 (all available Atari games in Arcade Learning Environment (Bellemare et al., 2013a)). Our results show that IMPALA is able to achieve better performance than previous agents with less data, and crucially exhibits positive transfer between tasks as a result of its multi-task approach.

研究动机与目标

  • 开发一个单一、可扩展的强化学习代理,能够掌握大量任务。
  • 在多机之间实现高效计算资源的使用,同时不牺牲数据效率或稳定性。
  • 引入一种有原理的 off-policy 校正,以处理 actor 与 learner 之间的滞后。

提出的方法

  • 提出解耦执行(acting)和学习(learning)的 IMPALA 架构,使来自多个 actor 的轨迹发送到集中学习者。
  • 使用 V-trace,一种 off-policy actor-critic 算法,来纠正行为策略与目标策略之间的滞后。
  • 在分布式学习者之间利用同步参数更新,并在学习者上进行 GPU 加速的小批量更新。
  • 应用架构和基于 TensorFlow 的优化(例如 time-folding、XLA、cuDNN)以最大化吞吐量。
  • 在多任务和单任务基准上,使用两种模型架构(浅层 LSTM 与深度残差网络)进行评估。

实验结果

研究问题

  • RQ1单一参数集的单一代理是否能够高效地学习多种不同的任务?
  • RQ2在规模化情况下,解耦 actor 和 learner 如何影响数据吞吐量和数据效率?
  • RQ3V-trace 是否在 actor 与 learner 间存在不同滞后时提供稳健的 off-policy 校正?
  • RQ4与单任务训练相比,多任务训练对任务之间迁移的影响如何?

主要发现

  • IMPALA 实现非常高的数据吞吐量,最高可达每秒 250,000 帧,超过单机 A3C 超过 30 倍。
  • 与基于 A3C 的代理相比,IMPALA 显示出更好的数据效率和对超参数的鲁棒性。
  • 使用 IMPALA 的多任务训练相对于任务特定专家,在 DMLab-30 上实现正向迁移和更优越的性能。
  • 在 Atari-57 上,IMPALA(深度、多任务)接近与专家基线的竞争性表现,达到 59.7% 的中位数人类标准化分数。
  • 在所有任务中,V-trace 提供带有 off-policy 校正的稳定学习,尤其是在使用经验回放时。
  • 带有多任务训练的 Deep IMPALA 收敛更快、精度更高,优于分布式 A3C 基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。