QUICK REVIEW

[논문 리뷰] Distributed Prioritized Experience Replay

Dan Horgan, John Quan|arXiv (Cornell University)|2018. 03. 02.

Reinforcement Learning in Robotics참고 문헌 25인용 수 411

한 줄 요약

본 논문은 Ape-X를 소개합니다. acting과 learning을 분리하고 중앙 집중식 우선순위 경험 재생을 이용해 심층 강화 학습을 확장시키는 분산 아키텍처로, Atari에서 최첨단 성과와 강력한 연속 제어 성능을 달성합니다.

ABSTRACT

We propose a distributed architecture for deep reinforcement learning at scale, that enables agents to learn effectively from orders of magnitude more data than previously possible. The algorithm decouples acting from learning: the actors interact with their own instances of the environment by selecting actions according to a shared neural network, and accumulate the resulting experience in a shared experience replay memory; the learner replays samples of experience and updates the neural network. The architecture relies on prioritized experience replay to focus only on the most significant data generated by the actors. Our architecture substantially improves the state of the art on the Arcade Learning Environment, achieving better final performance in a fraction of the wall-clock training time.

연구 동기 및 목표

데이터 생성을 늘리고 선택적 경험 재생을 통해 심층 강화 학습의 확장을 동기화한다.
행동과 학습을 분리하고 우선순위화된 중앙 재생을 사용하는 분산 아키텍처를 제안한다.
Atari와 연속 제어 벤치마크에서 확장성과 성능 향상을 실증한다.
재생 용량, 최신성, 정책 다양성 등 확장성에 영향을 주는 요인들을 분석한다.

제안 방법

여러 액터가 병렬로 경험을 수집하고 단일 학습자가 네트워크 매개변수를 업데이트하는 Ape-X 아키텍처를 도입한다.
정보가 풍부한 경험을 샘플링하기 위해 비례 우선순위를 가진 중앙 재생 메모리를 사용한다.
우선순위 업데이트 지연을 피하기 위해 액터 측에서 온라인으로 우선순위를 계산한다.
DQN의 변형들(더블 Q-러닝, 다중 스텝 보상, 듀얼링 네트워크)을 활용한 오프폴리시 학습과 DDPG(Ape-X DPG)를 적용한다.
액터는 주기적으로 학습자로부터 최신 매개변수를 가져오고; 학습 업데이트와 우선순위 업데이트는 비동기적으로 실행된다.
Atari에서 360 액터로 평가하고 DeepMind Control Suite의 연속 제어 작업에서도 평가한다.
액터 수, 재생 용량, 최신성, 데이터 생성 정책을 달리한 확장성 분석을 보고한다.

실험 결과

연구 질문

RQ1데이터 생성과 학습을 분리하고 우선순위 재생을 사용하는 분산 아키텍처가 심층 강화 학습의 샘플 효율성과 최종 성능을 향상시킬 수 있는가?
RQ2데이터 생성 액터의 수, 재생 메모리 용량, 정책 다양성이 이산 제어 및 연속 제어 작업에서 확장성과 성능에 어떤 영향을 주는가?
RQ3액터 측 온라인 우선순위 계산이 데이터 생성을 느리게 하지 않으면서 확장성에 도움이 되는가?
RQ4 Ape-X가 Atari에서 최첨단 결과를 달성하고, 게임별 하이퍼파라미터 조정 없이 연속 제어 벤치마크에서도 경쟁력 있는 성능을 낼 수 있는가?

주요 결과

Algorithm	Training	Environment	Resources	Median	Median
Ape-X DQN	5 days	22800M	376 cores, 1 GPU a	434%	358%
Rainbow	10 days	200M	1 GPU	223%	153%
Distributional (C51)	10 days	200M	1 GPU	178%	125%
A3C	4 days	—	16 cores	—	117%
Prioritized Dueling	9.5 days	200M	1 GPU	172%	115%
DQN	9.5 days	200M	1 GPU	79%	68%
Gorila DQN c	~4 days	—	unknown b	96%	78%
UNREAL d	—	250M	16 cores	331% d	250% d

Ape-X는 57개 Atari 게임에서 중간 인간 정상화 점수의 최첨단을 달성했고, 벤치마크 대비 더 빠른 월 시간 학습과 더 높은 최종 성능을 보인다.
액터 수를 늘려도 학습자 업데이트를 고정적으로 유지하는 한 Atari에서 성능이 지속적으로 향상된다(8에서 256 액터로 증가).
더 큰 재생 메모리 용량은 한계적으로 또는 보통의 이점을 제공하며, 시간이 지남에 따라 높은 우선순위 경험을 보존하는 것이 이점으로 작용한다.
우선순위 재생과 많은 액터에 걸친 다양한 행동 정책이 탐색을 돕고 과적합을 피하며 더 나은 성능으로 이어진다.
더블 Q-러닝, 다중 스텝 보상, 듀얼링 네트워크를 포함한 Ape-X DQN은 Atari에서 강력한 성능을 보이고, Ape-X DPG는 연속 제어 작업에서도 경쟁력 있는 결과를 확장한다.
연속 제어에서 액터 수를 늘리면 표준 DDPG 벤치마크를 넘어 빠른 학습 및 최종 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.