QUICK REVIEW

[논문 리뷰] Accelerated Methods for Deep Reinforcement Learning

Adam Stooke, Pieter Abbeel|arXiv (Cornell University)|2018. 03. 07.

Reinforcement Learning in Robotics참고 문헌 19인용 수 97

한 줄 요약

이 논문은 정책-그래디언트와 Q-값 방법을 병렬화하는 단일화된 GPU 가속 다중 시뮬레이터 프레임워크를 소개하여 CPU+GPU에서 대용량 배치 크기와 빠른 학습을 가능하게 하며, Atari/AE에서 유의미한 월-시계 시간 단축을 보여준다.

ABSTRACT

Deep reinforcement learning (RL) has achieved many recent successes, yet experiment turn-around time remains a key bottleneck in research and in practice. We investigate how to optimize existing deep RL algorithms for modern computers, specifically for a combination of CPUs and GPUs. We confirm that both policy gradient and Q-value learning algorithms can be adapted to learn using many parallel simulator instances. We further find it possible to train using batch sizes considerably larger than are standard, without negatively affecting sample complexity or final performance. We leverage these facts to build a unified framework for parallelization that dramatically hastens experiments in both classes of algorithm. All neural network computations use GPUs, accelerating both data collection and training. Our results include using an entire DGX-1 to learn successful strategies in Atari games in mere minutes, using both synchronous and asynchronous algorithms.

연구 동기 및 목표

깊은 강화학습에서 실험 반응 시간(turn-around time) bottleneck를 현대의 다중 CPU/GPU 하드웨어를 활용하여 해결한다.

제안 방법

다양한 알고리즘에 걸쳐 추론과 학습 모두에 GPU를 사용하는 통합 병렬 RL 프레임워크를 제안한다.
A2C, PPO, DQN 및 변형에 대해 다중 GPU 동기화 및 비동기 최적화를 구현한다.
표준보다 훨씬 큰 배치 크기로 학습을 가능하게 하되 샘플 효율성과 최종 성능을 유지한다.
다수의 병렬 시뮬레이터에 걸친 배치 추론으로 학습 샘플링의 확장 가능성을 demonstrate 한다.
Arcade Learning Environment를 이용한 Atari에서 처리량, 속도 증가, 학습 품질을 평가한다.

실험 결과

연구 질문

RQ1정책-그래디언트 및 Q-학습 방법이 많은 병렬 시뮬레이터 인스턴스에서도 성능 저하 없이 효율적으로 학습하도록Adapt될 수 있는가?
RQ2샘플 효율성과 최종 결과를 유지하면서 학습 배치 크기는 얼마나 크게 만들 수 있는가?
RQ3동일 시점 업데이트와 비동기 업데이트 간의 동시 다중 GPU 확장 시 속도향상과 병목은 무엇인가?
RQ4다른 알고리즘에서 병렬 샘플링이 학습 안정성 및 샘플 복잡도에 실제로 어떤 영향을 미치는가?

주요 결과

병렬 추론과 함께 동기화된 샘플링은 하드웨어 활용률을 높일 수 있으며 8-GPU 서버에서 Breakout에 대해 초당 35,000샘플 이상을 달성했다.
정책-그래디언트 및 Q-학습 알고리즘은 A2C, A3C, PPO, APPO, DQN 변형에서 다수의 병렬 시뮬레이터를 사용해도 게임 점수나 샘플 효율성의 현저한 저하 없이 학습할 수 있다.
업데이트당 수백에서 수천 개의 경험으로 큰 배치 학습이 학습 속도를 높일 수 있으며, 예를 들어 Categorical DQN의 경우 최대 2,048의 배치 크기에서도 성능을 유지하는 반면 매우 큰 배치에서 한계가 나타나는 알고리즘도 있다.
비동기 및 동기식 다중 GPU 접근 방식은 월-클록 속도 향상을 크게 가져다 주며 정책-그래디언트 방법은 수분 내에 의미 있는 학습을 완료한다.
Atari 실험에서는 A2C/A3C가 수일이 아닌 수시간 단위로 50M 스텝 학습을 완료하는 등 여러 구성에서 학습 시간의 큰 감소를 달성하면서도 인간 표준화 점수에 비해 비슷한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.