QUICK REVIEW

[논문 리뷰] Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU

Mohammad Babaeizadeh, Iuri Frosio|arXiv (Cornell University)|2016. 11. 18.

Reinforcement Learning in Robotics참고 문헌 10인용 수 174

한 줄 요약

GA3C는 GPU에 신경망을 중앙집중화하고 예측 및 학습 큐를 사용하며 리소스 구성을 자동으로 조정해 CPU 전용 A3C에 비해 학습 속도를 크게 높이는 하이브리드 CPU/GPU 구현이다.

ABSTRACT

We introduce a hybrid CPU/GPU version of the Asynchronous Advantage Actor-Critic (A3C) algorithm, currently the state-of-the-art method in reinforcement learning for various gaming tasks. We analyze its computational traits and concentrate on aspects critical to leveraging the GPU's computational power. We introduce a system of queues and a dynamic scheduling strategy, potentially helpful for other asynchronous algorithms as well. Our hybrid CPU/GPU version of A3C, based on TensorFlow, achieves a significant speed up compared to a CPU implementation; we make it publicly available to other researchers at https://github.com/NVlabs/GA3C .

연구 동기 및 목표

GPU에서 학습될 때 비동기 심층 강화학습 방법의 계산 병목 현상을 동기로 분석하고 분석한다.
GPU 병렬 처리를 더 잘 활용하면서 수렴 특성을 유지하기 위해 GA3C 아키텍처를 제안한다.
시스템 knobs 동적 자동 조정(예측자, 학습자, 에이전트)을 통해 학습 처리량(TPS)을 극대화한다.
GA3C가 네트워크 규모와 하드웨어에 따라 확장되는지 평가하고 CPU 기반 A3C와 수렴 속도를 비교한다.

제안 방법

하나의 GPU 모델 인스턴스로 TensorFlow에서 A3C의 CPU/GPU 하이브리드 버전(GA3C)을 구현한다.
에이전트가 배치로 정책을 요청하도록 예측 큐를 도입하고 GPU 모델 업데이트에 사용되는 배치를 위한 학습 큐를 도입한다.
정책 추론을 배치로 서비스하기 위해 하나 이상의 GPU 예측기와 GPU에서 모델 업데이트를 배치하기 위한 다수의 학습기를 사용한다.
개별 에이전트 모델 복사 및 동기화 오버헤드를 제거하기 위해 DNN 가중치를 단일 매개변수 서버와 같은 구조로 중앙집중화한다.
탐색을 촉진하기 위해 정책 손실에 엔트로피 정규화 항을 포함하여 탐색을 촉진한다.
로그 확률과 엔트로피 계산에 작은 엡실론을 추가하여 지연으로 인해 오래된 매개변수(정책 지연)가 발생할 때 그래디언트를 안정화한다.
관찰된 TPS를 바탕으로 매 분마다 N_P(예측자), N_T(학습기), N_A(에이전트)를 동적으로 조정하여 거의 최적의 구성에 도달한다.

실험 결과

연구 질문

RQ1GA3C가 GPU에 DNN을 중앙집중화하고 예측 및 학습을 배치함으로써 CPU 기반 A3C에 비해 상당한 속도향상을 달성할 수 있는가?
RQ2예측자/학습기/에이전트 수가 GA3C의 GPU 활용도, 학습 처리량(TPS), 수렴 안정성에 어떤 영향을 미치는가?
RQ3N_P, N_T, N_A의 동적 자동 조정이 서로 다른 게임과 하드웨어에서 수렴 속도와 강건성을 개선하는가?
RQ4정책 지연 및 학습 배치 크기가 GA3C의 학습 안정성과 수렴에 어떤 영향을 주는가?
RQ5더 큰 DNN 아키텍처에서 GA3C가 CPU 구현 대비 어떻게 확장되는가?

주요 결과

GA3C는 작은 DNN에서 CPU A3C 대비 약 6배, 더 큰 DNN에서 약 45배의 속도향상을 제공합니다.
최적 구성을 일반적으로 여러 에이전트(대개 CPU A3C보다 훨씬 많음)와 균형 잡힌 예측자/학습기 비율(N_P ≈ N_T)로 사용하며 N_A를 CPU 코어 활용에 맞춰 설정합니다.
N_P, N_T, N_A의 동적 자동 조정은 거의 최적의 구성을 발견하고 동일 하드웨어에서 Pong, Boxing 같은 게임들 사이를 적응할 수 있습니다.
실용적인 범위 내에서 학습 배치 크기를 늘리면(약 20–40) 정책 지연을 완화하여 학습 안정성과 수렴 속도가 개선되지만 배치가 너무 크면 처리량이 감소한다.
GA3C는 여러 아타리 게임에서 A3C보다 더 빠른 실제 학습 곡선을 달성하고, GA3C로 약 하루에 훈련된 경우 A3C가 약 4일 걸리는 것에 비해 경쟁 점수를 달성한다.
수동 측정은 미 naive setups에서 GPU의 상당한 유휴 시간이 있음을 보여 주어 배칭과 중앙집중형 GPU 사용의 이점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.