QUICK REVIEW

[논문 리뷰] RLlib: Abstractions for Distributed Reinforcement Learning

Eric Liang, Richard Liaw|arXiv (Cornell University)|2017. 12. 26.

Reinforcement Learning in Robotics인용 수 328

한 줄 요약

RLlib은 분산 강화 학습을 위한 계층적이고 논리적으로 중앙집중된 제어 모델을 제시하며, Ray를 통해 확장 가능한 추상화와 기본 요소를 제공하여 높은 성능과 코드 재사용으로 다양한 RL 알고리즘을 구현합니다.

ABSTRACT

Reinforcement learning (RL) algorithms involve the deep nesting of highly irregular computation patterns, each of which typically exhibits opportunities for distributed computation. We argue for distributing RL components in a composable way by adapting algorithms for top-down hierarchical control, thereby encapsulating parallelism and resource requirements within short-running compute tasks. We demonstrate the benefits of this principle through RLlib: a library that provides scalable software primitives for RL. These primitives enable a broad range of algorithms to be implemented with high performance, scalability, and substantial code reuse. RLlib is available at https://rllib.io/.

연구 동기 및 목표

분산 강화 학습에서 조합 가능하고 확장 가능한 기본 요소의 필요성을Motivate
RL 구성 요소 내에서 병렬성을 캡슐화하기 위한 계층적이고 논리적으로 중앙집중된 제어 모델을 제안합니다.
이러한 추상화를 구현하여 확장 가능한 RL 알고리즘의 신속한 개발을 가능하게 하는 라이브러리로서 RLlib를 도입합니다.
여러 RL 작업 부하와 벤치마크에서 RLlib의 성능과 확장성을 시연합니다.

제안 방법

RL 구성 요소와 중첩된 병렬성을 관리하기 위한 계층적이고 논리적으로 중앙집중된 제어를 제안합니다.
정책 π, 포스트프로세서 ρ, 손실 L, 유틸리티 u를 알고리즘이 지정하는 정책 그래프 추상화를 정의합니다.
경험을 수집하기 위한 PolicyEvaluator와 평가자 복제본에 대한 분산 업데이트를 수행하는 PolicyOptimizer를 구현합니다.
Ray 위에 RLlib를 구축하여 액터와 원격 작업으로 계층적 작업 스케줄링을 가능하게 합니다.
동일한 추상화 안에서 여러 RL 알고리즘 구현(DQNs, PPO, A3C, DDPG, ES, AlphaGo와 유사한 설정)을 보여줍니다.
전문화된 시스템에 대한 성능을 평가하고 확장성 지표를 시연합니다.

실험 결과

연구 질문

RQ1논리적으로 중앙집중된 계층적 제어 모델이 분산 RL 구성 요소의 구성화를 단순화하고 일반화할 수 있는가?
RQ2RLlib의 추상화가 다양한 RL 알고리즘 및 하드웨어 구성에 걸쳐 확장 가능한 성능을 가능하게 하는가?
RQ3비동기식, 분할 매개변수 서버, 로컬 다중 GPU 등 다양한 정책 옵티마이저가 처리량과 확장성에서 어떻게 비교되는가?
RQ4중첩된 분산 작업 구조가 RL 작업에서 데이터 전송, 스케줄링, 고장 허용성에 미치는 영향은 무엇인가?

주요 결과

RLlib은 계층적 제어와 짧은 실행 작업을 사용하여 광범위한 RL 작업 부하에서 최첨단 성능을 달성합니다.
Ape-X는 RLlib 내에서 256명의 작업자와 함께 초당 160k 환경 프레임으로 확장되어 기준 설정을 능가합니다.
단일 노드 Pong(PPO) 및 Pendulum 벤치마크는 CPU 및 GPU 자원에서 높은 처리량과 효율적인 확장을 보여줍니다.
Evolution Strategies는 Humanoid-v1에서 8192코어로 확장되며 보상 6000에 대한 중앙값 시간이 3.7분으로, 알려진 최상의 결과보다 두 배 이상 빠릅니다.
RLlib의 로컬 다중-GPU 정책 옵티마이저는 특정 구성에서 분산 Allreduce보다 더 나은 GPU 메모리 지역성으로 우수할 수 있습니다.
PPO 및 A3C 벤치마크에서 RLlib은 동일한 하이퍼파라미터를 사용하여 전문 시스템의 성능에 필적하거나 그 이상을 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.