QUICK REVIEW

[论文解读] RLlib: Abstractions for Distributed Reinforcement Learning

Eric Liang, Richard Liaw|arXiv (Cornell University)|Dec 26, 2017

Reinforcement Learning in Robotics被引用 328

一句话总结

RLlib 提出一个用于分布式强化学习的分层、逻辑中心化的控制模型，通过 Ray 提供可扩展的抽象和原语，以实现高性能和代码重用的多种 RL 算法。

ABSTRACT

Reinforcement learning (RL) algorithms involve the deep nesting of highly irregular computation patterns, each of which typically exhibits opportunities for distributed computation. We argue for distributing RL components in a composable way by adapting algorithms for top-down hierarchical control, thereby encapsulating parallelism and resource requirements within short-running compute tasks. We demonstrate the benefits of this principle through RLlib: a library that provides scalable software primitives for RL. These primitives enable a broad range of algorithms to be implemented with high performance, scalability, and substantial code reuse. RLlib is available at https://rllib.io/.

研究动机与目标

动机：在分布式强化学习中需要可组合、可扩展的原语。
提出一个分层、逻辑中心化的控制模型，以封装 RL 组件中的并行性。
介绍 RLlib 作为实现这些抽象的库，以促进可扩展 RL 算法的快速开发。
展示 RLlib 在多种 RL 工作负载和基线上的性能与可扩展性。

提出的方法

提出分层和逻辑中心化的控制，以管理 RL 组件及嵌套并行性。
定义策略图抽象，其中策略 pi、后处理器 rho、损失 L 和效用 u 由算法指定。
实现 PolicyEvaluator 以收集经验，PolicyOptimizer 在评估者副本上执行分布式更新。
在 Ray 上构建 RLlib，以启用带有 actor 和远程任务的分层任务调度。
在同一抽象之内展示多种 RL 算法实现（DQNs、PPO、A3C、DDPG、ES、AlphaGo 风格的设置）。
与专用系统比较性能并展示可扩展性指标。

实验结果

研究问题

RQ1一个逻辑中心化的分层控制模型是否能够简化并泛化分布式 RL 组件的组合？
RQ2RLlib 的抽象是否能够在广泛的 RL 算法家族和硬件配置上实现可扩展的性能？
RQ3不同的策略优化器（如异步、分片参数服务器、本地多 GPU）在吞吐量和可扩展性方面有何比较？
RQ4分布式嵌套任务结构对 RL 工作负载中的数据传输、调度和容错有什么影响？

主要发现

RLlib 在广泛的 RL 工作负载上实现了基于分层控制和短任务的最先进性能。
Ape-X 在 RLlib 中在 256 个工作者下可扩展至 160k 环境帧/秒，优于参考设置。
单节点 Pong (PPO) 和 Pendulum 基准测试在 CPU 和 GPU 资源上显示出高吞吐量和高效扩展性。
Evolution Strategies 在 Humanoid-v1 上扩展到 8192 核心，达到奖励 6000 的中位时间 3.7 分钟，是已发表结果的两倍以上。
RLlib 的本地多 GPU 策略优化器在某些配置下可超过分布式 allreduce，原因是更好的 GPU 内存局部性。
在 PPO 和 A3C 基准测试中，使用相同的超参数，RLlib 的性能达到或超过专用系统。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。