Skip to main content
QUICK REVIEW

[論文レビュー] RLlib: Abstractions for Distributed Reinforcement Learning

Eric Liang, Richard Liaw|arXiv (Cornell University)|Dec 26, 2017
Reinforcement Learning in Robotics被引用数 328
ひとこと要約

RLlib は、分散強化学習のための階層的で論理的に集中化された制御モデルを提示し、Rayを介して高性能とコード再利用性を備えた幅広いRLアルゴリズムの実装を可能にするスケーラブルな抽象化とプリミティブを提供します。

ABSTRACT

Reinforcement learning (RL) algorithms involve the deep nesting of highly irregular computation patterns, each of which typically exhibits opportunities for distributed computation. We argue for distributing RL components in a composable way by adapting algorithms for top-down hierarchical control, thereby encapsulating parallelism and resource requirements within short-running compute tasks. We demonstrate the benefits of this principle through RLlib: a library that provides scalable software primitives for RL. These primitives enable a broad range of algorithms to be implemented with high performance, scalability, and substantial code reuse. RLlib is available at https://rllib.io/.

研究の動機と目的

  • 分散強化学習における組み合わせ可能でスケーラブルなプリミティブの必要性を動機付ける。
  • RL部品内の並列性をカプセル化する階層的で論理的に集中化された制御モデルを提案する。
  • これらの抽象化を実装するライブラリとしてRLlibを紹介し、スケーラブルなRLアルゴリズムの迅速な開発を可能にする。
  • 複数のRLワークロードとベースラインに対するRLlibの性能とスケーラビリティを示す。

提案手法

  • RL部品とネストされた並列性を管理するための階層的で論理的に集中化された制御を提案する。
  • アルゴリズムによってポリシーπ、ポストプロセッサrho、損失L、ユーティリティuを指定するポリシーグラフの抽象化を定義する。
  • PolicyEvaluatorを実装して経験を収集し、PolicyOptimizerを実装して評価者レプリカ上で分散更新を行う。
  • RLlib を Ray 上に構築して、アクターとリモートタスクを用いた階層的タスクスケジューリングを可能にする。
  • 同じ抽象化の下で複数の RL アルゴリズム実装を示す(DQNs、PPO、A3C、DDPG、ES、AlphaGo風の設定)。
  • 専門的なシステムと比較してパフォーマンスを評価し、スケーラビリティ指標を示す。

実験結果

リサーチクエスチョン

  • RQ1論理的に集中化された階層的制御モデルは、分散RL部品の組成を単純化し一般化できるか。
  • RQ2RLlib の抽象化は、広範なRLアルゴリズムとハードウェア構成にわたってスケーラブルな性能を実現できるか。
  • RQ3異なるポリシー最適化手法(例:非同期、シャーディング済みパラメータサーバ、ローカルマルチGPU)はスループットとスケーラビリティにおいてどのように比較されるか。
  • RQ4ネストされた分散タスク構造が、データ転送、スケジューリング、RLワークロードのフォールトトレランスに与える影響はどのようか。

主な発見

  • RLlib は階層的制御と短時間タスクを用いて、広範なRLワークロードで最先端のパフォーマンスを達成する。
  • Ape-X は RLlib 内で 256 のワーカーで 160k 環境フレームレートへスケールし、参照設定を上回る。
  • Single-node Pong (PPO) と Pendulum のベンチマークは、CPUおよびGPUリソース上で高いスループットと効率的なスケーリングを示す。
  • Evolution Strategies は Humanoid-v1 で 8192 コアへスケールし、報酬 6000 の中央値時間を 3.7 分で達成、最良公開結果の2倍以上を超える。
  • RLlib のローカルマルチGPUポリシー最適化は、GPUメモリの局在性が良いため、特定の構成では分散全要約を上回ることがある。
  • PPO および A3C ベンチマークに対して、同じハイパーパラメータを使用して専門システムと同等以上のパフォーマンスをRLlibが実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。