QUICK REVIEW

[논문 리뷰] IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

Lasse Espeholt, Hubert Soyer|arXiv (Cornell University)|2018. 02. 05.

Reinforcement Learning in Robotics참고 문헌 3인용 수 611

한 줄 요약

IMPALA는 분리된 액터와 학습기 및 V-trace 오프 폴리시 보정을 갖춘 확장 가능 분산 심층 강화 학습 에이전트를 도입하여, DMLab-30과 Atari-57에서 높은 데이터 처리량과 강력한 다중 과제 성능을 달성한다.

ABSTRACT

In this work we aim to solve a large collection of tasks using a single reinforcement learning agent with a single set of parameters. A key challenge is to handle the increased amount of data and extended training time. We have developed a new distributed agent IMPALA (Importance Weighted Actor-Learner Architecture) that not only uses resources more efficiently in single-machine training but also scales to thousands of machines without sacrificing data efficiency or resource utilisation. We achieve stable learning at high throughput by combining decoupled acting and learning with a novel off-policy correction method called V-trace. We demonstrate the effectiveness of IMPALA for multi-task reinforcement learning on DMLab-30 (a set of 30 tasks from the DeepMind Lab environment (Beattie et al., 2016)) and Atari-57 (all available Atari games in Arcade Learning Environment (Bellemare et al., 2013a)). Our results show that IMPALA is able to achieve better performance than previous agents with less data, and crucially exhibits positive transfer between tasks as a result of its multi-task approach.

연구 동기 및 목표

많은 과제 모음을 습득할 수 있는 단일의 확장 가능한 강화 학습 에이전트를 개발한다.
데이터 효율성이나 안정성을 희생하지 않으면서 여러 머신에 걸친 컴퓨트의 효율적인 활용을 가능하게 한다.
액터와 학습기 간의 지연을 처리하기 위한 원칙적인 오프 폴리시 보정을 도입한다.

제안 방법

액팅과 학습을 분리하는 IMPALA 아키텍처를 제안하고, 다수의 액터로부터의 트래젝토리를 중앙 집중식 학습기로 보낸다.
행동 정책과 목표 정책 간의 지연을 보정하기 위해 오프폴리시 액터-크리틱 알고리즘인 V-trace를 사용한다.
분산 학습기들 간의 동기식 매개변수 업데이트와 학습기에서의 GPU 가속 미니배치 업데이트를 활용한다.
처리량 극대화를 위해 아키텍처 및 TensorFlow 기반 최적화(예: time-folding, XLA, cuDNN)를 적용한다.
다중 과제 및 단일 과제 벤치마크에서 두 가지 모델 아키텍처(얕은 LSTM과 깊은 잔차 네트워크)로 평가한다.

실험 결과

연구 질문

RQ1하나의 파라미터 세트를 가진 단일 에이전트가 다양한 다중 과제를 효율적으로 학습할 수 있는가?
RQ2액터와 학습기를 분리하는 것이 대규모에서 데이터 처리량과 데이터 효율성에 어떤 영향을 미치는가?
RQ3V-trace가 다양한 액터-학습기 지연에서 강력한 오프폴리시 보정을 제공하는가?
RQ4다중 과제 학습이 과제 간 전이에 미치는 영향은 단일 과제 학습과 비교하여 어떤가?

주요 결과

IMPALA는 매우 높은 데이터 처리량을 달성하여 최대 250,000 프레임/초에 이르며, 단일 머신 A3C를 30배 이상 능가한다.
IMPALA는 A3C 기반 에이전트에 비해 데이터 효율성과 하이퍼파라미터에 대한 강건성이 더 뛰어나다.
IMPALA를 이용한 다중 과제 학습은 DMLab-30에서 과제별 전문가에 비해 긍정적 전이와 우수한 성능을 보인다.
Atari-57에서, IMPALA(깊은 다중 과제)는 전문가 기준선에 근접한 성능을 보이며, 중간값 인간 기준 정규화 점수 59.7%를 달성한다.
작업 전반에 걸쳐 V-trace는 오프폴리시 보정으로 안정적인 학습을 제공하며, 특히 경험 재생이 사용될 때 그렇다.
Deep IMPALA는 다중 과제 학습을 갖춘 경우 분산 A3C 기준선보다 더 빠르게 수렴하고 더 높은 정확도에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.