Skip to main content
QUICK REVIEW

[논문 리뷰] Efficient Parallel Methods for Deep Reinforcement Learning

Alfredo Vicente Clemente, Humberto Nicolás Castejón|arXiv (Cornell University)|2017. 05. 13.
Reinforcement Learning in Robotics참고 문헌 5인용 수 80
한 줄 요약

PAAC는 GPU 친화적이고 동기식의 다중 에이전트 병렬 프레임워크를 도입하여 수백 개의 에이전트를 한 대의 머신에서 온-policy 학습을 수행하고, 몇 시간 안에 Atari에서 최첨단 결과를 달성합니다. Gorila, A3C, GA3C와 여러 게임에서 비교 우위를 보입니다.

ABSTRACT

We propose a novel framework for efficient parallelization of deep reinforcement learning algorithms, enabling these algorithms to learn from multiple actors on a single machine. The framework is algorithm agnostic and can be applied to on-policy, off-policy, value based and policy gradient based algorithms. Given its inherent parallelism, the framework can be efficiently implemented on a GPU, allowing the usage of powerful models while significantly reducing training time. We demonstrate the effectiveness of our framework by implementing an advantage actor-critic algorithm on a GPU, using on-policy experiences and employing synchronous updates. Our algorithm achieves state-of-the-art performance on the Atari domain after only a few hours of training. Our framework thus opens the door for much faster experimentation on demanding problem domains. Our implementation is open-source and is made public at https://github.com/alfredvc/paac

연구 동기 및 목표

  • 단일 머신에서 심층 강화학의 효율적인 병렬화를 촉진하고 가능하게 한다.
  • 온-policy, 오프-policy, 가치 기반, 정책-그래디언트 방법 등을 다룰 수 있는 알고리즘에 구애받지 않는 프레임워크를 개발한다.
  • 다수의 액터를 이용한 동기식 업데이트가 빠른 학습과 강력한 성능을 달성할 수 있음을 보여준다.
  • 요구가 높은 도메인에서 실험을 가속화하기 위한 오픈소스 구현을 제공한다.

제안 방법

  • 경험을 수집하고 단일 신경망 매개변수 세트를 배치 업데이트하기 위해 n_e 환경과 n_w 워커를 갖는 일반적인 병렬 프레임워크를 제안한다.
  • 비동기 방법에서 흔한 스테일 그래디언트 문제를 피하기 위해 동기식 배치 업데이트를 사용한다.
  • 정책과 가치 네트워크가 매개변수를 공유하는 n-step A2C 스타일 알고리즘인 PAAC를 통해 사례를 제시한다.
  • PAAC에서 정책과 가치의 그래디언트를 n_e * t_max 크기의 미니배치를 사용해 계산하고 가중치를 동기적으로 업데이트한다.
  • 모델 크기 효과를 비교하기 위해 두 가지 네트워크 아키텍처(arh_nips, arch_nature)로 실험하고, Atari 2600에서 GPU에서 TensorFlow를 사용해 학습한다.

실험 결과

연구 질문

  • RQ1단일 머신의 고도로 병렬화된 프레임워크가 온-policy, 오프-policy, 가치 기반, 정책-그래디언트 RL 알고리즘을 효율적으로 지원할 수 있는가?
  • RQ2GPU에서의 동기식 다중 에이전트 학습이 이전의 병렬 방식에 비해 현저히 짧은 학습 시간으로 Atari에서 최첨단 성능을 제공하는가?
  • RQ3다양한 네트워크 아키텍처와 액터 수가 병렬 RL 설정에서 학습 속도와 안정성에 어떤 영향을 미치는가?
  • RQ4병렬 액터 수를 확장할 때 환경 상호작용 시간과 학습 시간 간의 균형( trade-off) 은 무엇인가?

주요 결과

게임GorilaA3C FFGA3CPAAC arch_nipsPAAC arch_nature
Amidar1189.70263.9218701.81348.3
Centipede8432.303755.873865747.327368.1
Beam Rider3302.922707.9N/A4062.06844.0
Boxing94.959.89299.699.8
Breakout402.2681.9N/A470.1565.3
Ms. Pacman3233.50653.719782194.71976.0
Name This Game6182.1610476.156439743.714068.0
Pong18.35.61820.620.9
Qbert10815.615148.814966.016561.717249.2
Seaquest13169.062355.417061754.01755.3
Space Invaders1883.415730.5N/A1077.31427.8
Up n Down12561.5874705.7862388105.3100523.3
  • PAAC는 단일 머신에서 몇 시간의 학습만으로 Atari 2600 도메인에서 최첨단 성능을 달성한다.
  • PAAC는 보고된 결과에서 12개 게임 중 8개에서 Gorila를 능가하고, 8개 게임에서 A3C FF를 능가한다.
  • PAAC는 대부분의 실험 게임에서 GA3C와 비등하고, 일부에서 이를 능가하며, 이는 표 1에 나타나 있다.
  • 환경 수 n_e를 늘리면 학습 시간이 빨라지며(주어진 타임스텝으로의 진행이 빨라짐) 점수도 경쟁력이 유지되지만, 학습률 확장(rate scaling)이 충분하지 않을 때 매우 높은 n_e에서 일부 수렴이 벗어나는 현상이 관찰된다.
  • 이 프레임워크는 단일 매개변수 복사본과 동기식 업데이트로 진정한 온-policy 학습을 가능하게 하여 스테일드 그래디언트와 비동기화와 관련된 문제를 줄인다.
  • 실험은 이 프레임워크가 두 가지 아키텍처(arch_nips 및 arch_nature)와 GPU에서 학습할 수 있음을 보여주며 Atari에 대해 상당한 속도 향상(며칠이 아닌 시간 단위)을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.