[논문 리뷰] Efficient Parallel Methods for Deep Reinforcement Learning
PAAC는 GPU 친화적이고 동기식의 다중 에이전트 병렬 프레임워크를 도입하여 수백 개의 에이전트를 한 대의 머신에서 온-policy 학습을 수행하고, 몇 시간 안에 Atari에서 최첨단 결과를 달성합니다. Gorila, A3C, GA3C와 여러 게임에서 비교 우위를 보입니다.
We propose a novel framework for efficient parallelization of deep reinforcement learning algorithms, enabling these algorithms to learn from multiple actors on a single machine. The framework is algorithm agnostic and can be applied to on-policy, off-policy, value based and policy gradient based algorithms. Given its inherent parallelism, the framework can be efficiently implemented on a GPU, allowing the usage of powerful models while significantly reducing training time. We demonstrate the effectiveness of our framework by implementing an advantage actor-critic algorithm on a GPU, using on-policy experiences and employing synchronous updates. Our algorithm achieves state-of-the-art performance on the Atari domain after only a few hours of training. Our framework thus opens the door for much faster experimentation on demanding problem domains. Our implementation is open-source and is made public at https://github.com/alfredvc/paac
연구 동기 및 목표
- 단일 머신에서 심층 강화학의 효율적인 병렬화를 촉진하고 가능하게 한다.
- 온-policy, 오프-policy, 가치 기반, 정책-그래디언트 방법 등을 다룰 수 있는 알고리즘에 구애받지 않는 프레임워크를 개발한다.
- 다수의 액터를 이용한 동기식 업데이트가 빠른 학습과 강력한 성능을 달성할 수 있음을 보여준다.
- 요구가 높은 도메인에서 실험을 가속화하기 위한 오픈소스 구현을 제공한다.
제안 방법
- 경험을 수집하고 단일 신경망 매개변수 세트를 배치 업데이트하기 위해 n_e 환경과 n_w 워커를 갖는 일반적인 병렬 프레임워크를 제안한다.
- 비동기 방법에서 흔한 스테일 그래디언트 문제를 피하기 위해 동기식 배치 업데이트를 사용한다.
- 정책과 가치 네트워크가 매개변수를 공유하는 n-step A2C 스타일 알고리즘인 PAAC를 통해 사례를 제시한다.
- PAAC에서 정책과 가치의 그래디언트를 n_e * t_max 크기의 미니배치를 사용해 계산하고 가중치를 동기적으로 업데이트한다.
- 모델 크기 효과를 비교하기 위해 두 가지 네트워크 아키텍처(arh_nips, arch_nature)로 실험하고, Atari 2600에서 GPU에서 TensorFlow를 사용해 학습한다.
실험 결과
연구 질문
- RQ1단일 머신의 고도로 병렬화된 프레임워크가 온-policy, 오프-policy, 가치 기반, 정책-그래디언트 RL 알고리즘을 효율적으로 지원할 수 있는가?
- RQ2GPU에서의 동기식 다중 에이전트 학습이 이전의 병렬 방식에 비해 현저히 짧은 학습 시간으로 Atari에서 최첨단 성능을 제공하는가?
- RQ3다양한 네트워크 아키텍처와 액터 수가 병렬 RL 설정에서 학습 속도와 안정성에 어떤 영향을 미치는가?
- RQ4병렬 액터 수를 확장할 때 환경 상호작용 시간과 학습 시간 간의 균형( trade-off) 은 무엇인가?
주요 결과
| 게임 | Gorila | A3C FF | GA3C | PAAC arch_nips | PAAC arch_nature |
|---|---|---|---|---|---|
| Amidar | 1189.70 | 263.9 | 218 | 701.8 | 1348.3 |
| Centipede | 8432.30 | 3755.8 | 7386 | 5747.32 | 7368.1 |
| Beam Rider | 3302.9 | 22707.9 | N/A | 4062.0 | 6844.0 |
| Boxing | 94.9 | 59.8 | 92 | 99.6 | 99.8 |
| Breakout | 402.2 | 681.9 | N/A | 470.1 | 565.3 |
| Ms. Pacman | 3233.50 | 653.7 | 1978 | 2194.7 | 1976.0 |
| Name This Game | 6182.16 | 10476.1 | 5643 | 9743.7 | 14068.0 |
| Pong | 18.3 | 5.6 | 18 | 20.6 | 20.9 |
| Qbert | 10815.6 | 15148.8 | 14966.0 | 16561.7 | 17249.2 |
| Seaquest | 13169.06 | 2355.4 | 1706 | 1754.0 | 1755.3 |
| Space Invaders | 1883.4 | 15730.5 | N/A | 1077.3 | 1427.8 |
| Up n Down | 12561.58 | 74705.7 | 8623 | 88105.3 | 100523.3 |
- PAAC는 단일 머신에서 몇 시간의 학습만으로 Atari 2600 도메인에서 최첨단 성능을 달성한다.
- PAAC는 보고된 결과에서 12개 게임 중 8개에서 Gorila를 능가하고, 8개 게임에서 A3C FF를 능가한다.
- PAAC는 대부분의 실험 게임에서 GA3C와 비등하고, 일부에서 이를 능가하며, 이는 표 1에 나타나 있다.
- 환경 수 n_e를 늘리면 학습 시간이 빨라지며(주어진 타임스텝으로의 진행이 빨라짐) 점수도 경쟁력이 유지되지만, 학습률 확장(rate scaling)이 충분하지 않을 때 매우 높은 n_e에서 일부 수렴이 벗어나는 현상이 관찰된다.
- 이 프레임워크는 단일 매개변수 복사본과 동기식 업데이트로 진정한 온-policy 학습을 가능하게 하여 스테일드 그래디언트와 비동기화와 관련된 문제를 줄인다.
- 실험은 이 프레임워크가 두 가지 아키텍처(arch_nips 및 arch_nature)와 GPU에서 학습할 수 있음을 보여주며 Atari에 대해 상당한 속도 향상(며칠이 아닌 시간 단위)을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.