Skip to main content
QUICK REVIEW

[논문 리뷰] SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference

Lasse Espeholt, Raphaël Marinier|arXiv (Cornell University)|2019. 10. 15.
Reinforcement Learning in Robotics참고 문헌 42인용 수 37
한 줄 요약

SEED는 중앙 집중식 추론과 빠른 스트리밍 RPC를 갖춘 확장 가능한 deep-RL 에이전트로, Atari-57, DeepMind Lab, Google Research Football 전반에서 IMPALA보다 더 빠른 wall-time과 더 낮은 비용을 달성하며, V-trace와 R2D2를 지원합니다.

ABSTRACT

We present a modern scalable reinforcement learning agent called SEED (Scalable, Efficient Deep-RL). By effectively utilizing modern accelerators, we show that it is not only possible to train on millions of frames per second but also to lower the cost of experiments compared to current methods. We achieve this with a simple architecture that features centralized inference and an optimized communication layer. SEED adopts two state of the art distributed algorithms, IMPALA/V-trace (policy gradients) and R2D2 (Q-learning), and is evaluated on Atari-57, DeepMind Lab and Google Research Football. We improve the state of the art on Football and are able to reach state of the art on Atari-57 three times faster in wall-time. For the scenarios we consider, a 40% to 80% cost reduction for running experiments is achieved. The implementation along with experiments is open-sourced so results can be reproduced and novel ideas tried out.

연구 동기 및 목표

  • 현대 가속기를 효율적으로 활용하는 확장 가능한 강화 학습의 필요성을 제기한다.
  • 대기 시간과 비용을 줄이기 위해 중앙 집중식 추론과 최적화된 통신을 갖춘 SEED 아키텍처를 제안한다.
  • 다양한 벤치마크에서 V-trace(정책 그래디언트)와 R2D2(Q-러닝)로 SEED를 시연한다.
  • 성과를 유지하면서 IMPALA 대비 속도 향상과 비용 절감을 보여준다.
  • 재현성과 실험 가능성을 위해 오픈 소스 구현을 제공한다.

제안 방법

  • 학습자에서 중앙 집중식 추론과 원격 환경을 사용하는 액터-러너 구조를 채택한다.
  • 지연 시간과 오버헤드를 최소화하기 위해 배치 처리와 스트리밍 gRPC를 사용한다.
  • SEED 내에서 정책 그래디언트 학습을 위한 V-trace를 구현한다.
  • 학습자 상주 재생 버퍼와 선택적 대규모 재생을 갖춘 R2D2-스타일 Q-러닝을 구현한다.
  • 처리량과 활용도를 극대화하기 위해 TPU에서 추론/학습 코어 할당을 조정한다.
  • 가속화된 학습을 위해 2에서 8 TPU v3 코어 규모로 확장하고 그 이상까지 시연한다.

실험 결과

연구 질문

  • RQ1SEED가 IMPALA에 비해 wall-clock 학습 시간과 운영 비용을 줄이면서 최첨단 성능을 달성할 수 있는가?
  • RQ2중앙 집중식 추론과 빠른 스트리밍 RPC가 다양한 환경에서 자원 활용도와 확장성을 개선하는가?
  • RQ3V-trace와 R2D2 구현이 Atari-57, DeepMind Lab, Google Research Football의 SEED 중앙 집중식 추론 아키텍처에서 어떤 성능을 보이는가?
  • RQ4SEED에서 배치 크기, 코어 할당, 샘플 효율성 사이의 트레이드오프는 무엇인가?
  • RQ5SEED 구현이 오픈 소스이며 클라우드 인프라에서 재현 가능한가?

주요 결과

  • SEED는 평가된 작업에서 IMPALA보다 더 빠른 wall-time 학습을 달성하며, 예를 들어 DeepMind Lab에서 2 TPU 코어로 2.5x 더 빠르고 코어를 TPU 포드(2048 코어)로 확장하면 최대 11x 더 빠릅니다.
  • SEED는 CPU 사용량과 총 비용을 줄이며, 제시된 시나리오에서 비용 감소가 최대 80%에 달하는 것으로 보고됩니다.
  • Atari-57에서 SEED는 R2D2 및 관련 에이전트보다 벼 평균 인간 표준화 점수의 벽 시점에서 3.1x 더 빠르게 도달합니다.
  • SEED는 Google Research Football의 결과를 개선하며, 다양한 맵 크기와 보상 설정에서 이전의 최첨단 점수를 능가하고 코어가 많아질수록 확장됩니다.
  • 아주 큰 배치 크기에서 샘플 효율성에는 다소 대가가 있지만, 확장 시 더 많은 프레임당 훈련이 가능하도록 아키텍처는 R2D2에 비해 샘플 효율성을 유지합니다.
  • Google Cloud에서의 오픈 소스 SEED 구현은 재현성과 실험 가능성을 촉진합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.