QUICK REVIEW

[논문 리뷰] Efficient Parallel Methods for Deep Reinforcement Learning

Alfredo Vicente Clemente, Humberto Nicolás Castejón|arXiv (Cornell University)|2017. 05. 13.

Reinforcement Learning in Robotics참고 문헌 5인용 수 80

한 줄 요약

PAAC는 GPU 친화적이고 동기식의 다중 에이전트 병렬 프레임워크를 도입하여 수백 개의 에이전트를 한 대의 머신에서 온-policy 학습을 수행하고, 몇 시간 안에 Atari에서 최첨단 결과를 달성합니다. Gorila, A3C, GA3C와 여러 게임에서 비교 우위를 보입니다.

ABSTRACT

We propose a novel framework for efficient parallelization of deep reinforcement learning algorithms, enabling these algorithms to learn from multiple actors on a single machine. The framework is algorithm agnostic and can be applied to on-policy, off-policy, value based and policy gradient based algorithms. Given its inherent parallelism, the framework can be efficiently implemented on a GPU, allowing the usage of powerful models while significantly reducing training time. We demonstrate the effectiveness of our framework by implementing an advantage actor-critic algorithm on a GPU, using on-policy experiences and employing synchronous updates. Our algorithm achieves state-of-the-art performance on the Atari domain after only a few hours of training. Our framework thus opens the door for much faster experimentation on demanding problem domains. Our implementation is open-source and is made public at https://github.com/alfredvc/paac

연구 동기 및 목표

단일 머신에서 심층 강화학의 효율적인 병렬화를 촉진하고 가능하게 한다.
온-policy, 오프-policy, 가치 기반, 정책-그래디언트 방법 등을 다룰 수 있는 알고리즘에 구애받지 않는 프레임워크를 개발한다.
다수의 액터를 이용한 동기식 업데이트가 빠른 학습과 강력한 성능을 달성할 수 있음을 보여준다.
요구가 높은 도메인에서 실험을 가속화하기 위한 오픈소스 구현을 제공한다.

제안 방법

경험을 수집하고 단일 신경망 매개변수 세트를 배치 업데이트하기 위해 n_e 환경과 n_w 워커를 갖는 일반적인 병렬 프레임워크를 제안한다.
비동기 방법에서 흔한 스테일 그래디언트 문제를 피하기 위해 동기식 배치 업데이트를 사용한다.
정책과 가치 네트워크가 매개변수를 공유하는 n-step A2C 스타일 알고리즘인 PAAC를 통해 사례를 제시한다.
PAAC에서 정책과 가치의 그래디언트를 n_e * t_max 크기의 미니배치를 사용해 계산하고 가중치를 동기적으로 업데이트한다.
모델 크기 효과를 비교하기 위해 두 가지 네트워크 아키텍처(arh_nips, arch_nature)로 실험하고, Atari 2600에서 GPU에서 TensorFlow를 사용해 학습한다.

실험 결과

연구 질문

RQ1단일 머신의 고도로 병렬화된 프레임워크가 온-policy, 오프-policy, 가치 기반, 정책-그래디언트 RL 알고리즘을 효율적으로 지원할 수 있는가?
RQ2GPU에서의 동기식 다중 에이전트 학습이 이전의 병렬 방식에 비해 현저히 짧은 학습 시간으로 Atari에서 최첨단 성능을 제공하는가?
RQ3다양한 네트워크 아키텍처와 액터 수가 병렬 RL 설정에서 학습 속도와 안정성에 어떤 영향을 미치는가?
RQ4병렬 액터 수를 확장할 때 환경 상호작용 시간과 학습 시간 간의 균형( trade-off) 은 무엇인가?

주요 결과

게임	Gorila	A3C FF	GA3C	PAAC arch_nips	PAAC arch_nature
Amidar	1189.70	263.9	218	701.8	1348.3
Centipede	8432.30	3755.8	7386	5747.32	7368.1
Beam Rider	3302.9	22707.9	N/A	4062.0	6844.0
Boxing	94.9	59.8	92	99.6	99.8
Breakout	402.2	681.9	N/A	470.1	565.3
Ms. Pacman	3233.50	653.7	1978	2194.7	1976.0
Name This Game	6182.16	10476.1	5643	9743.7	14068.0
Pong	18.3	5.6	18	20.6	20.9
Qbert	10815.6	15148.8	14966.0	16561.7	17249.2
Seaquest	13169.06	2355.4	1706	1754.0	1755.3
Space Invaders	1883.4	15730.5	N/A	1077.3	1427.8
Up n Down	12561.58	74705.7	8623	88105.3	100523.3

PAAC는 단일 머신에서 몇 시간의 학습만으로 Atari 2600 도메인에서 최첨단 성능을 달성한다.
PAAC는 보고된 결과에서 12개 게임 중 8개에서 Gorila를 능가하고, 8개 게임에서 A3C FF를 능가한다.
PAAC는 대부분의 실험 게임에서 GA3C와 비등하고, 일부에서 이를 능가하며, 이는 표 1에 나타나 있다.
환경 수 n_e를 늘리면 학습 시간이 빨라지며(주어진 타임스텝으로의 진행이 빨라짐) 점수도 경쟁력이 유지되지만, 학습률 확장(rate scaling)이 충분하지 않을 때 매우 높은 n_e에서 일부 수렴이 벗어나는 현상이 관찰된다.
이 프레임워크는 단일 매개변수 복사본과 동기식 업데이트로 진정한 온-policy 학습을 가능하게 하여 스테일드 그래디언트와 비동기화와 관련된 문제를 줄인다.
실험은 이 프레임워크가 두 가지 아키텍처(arch_nips 및 arch_nature)와 GPU에서 학습할 수 있음을 보여주며 Atari에 대해 상당한 속도 향상(며칠이 아닌 시간 단위)을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.