QUICK REVIEW

[논문 리뷰] Gossip-based Actor-Learner Architectures for Deep Reinforcement Learning

Mahmoud Assran, Joshua Romoff|arXiv (Cornell University)|2019. 06. 01.

Reinforcement Learning in Robotics인용 수 7

한 줄 요약

GALA는 깊이 강화 학습을 위한 게시 기반, 피어 투 피어 액터-러닝 아키텍처를 제안하며, 여러 에이전트 간의 확장 가능하고 비동기적 통신을 가능하게 하여 샘플 효율성과 하드웨어 활용도를 향상시킨다. 동기화 오버헤드를 줄임으로써 GALA는 A2C보다 높은 프레임 레이트와 더 나은 성능을 달성하면서도 단일 GPU에서 안정성과 유사한 전력 소비를 유지한다.

ABSTRACT

Multi-simulator training has contributed to the recent success of Deep Reinforcement Learning (Deep RL) by stabilizing learning and allowing for higher training throughputs. In this work, we propose Gossip-based Actor-Learner Architectures (GALA) where several actor-learners (such as A2C agents) are organized in a peer-to-peer communication topology, and exchange information through asynchronous gossip in order to take advantage of a large number of distributed simulators. We prove that GALA agents remain within an epsilon-ball of one-another during training when using loosely coupled asynchronous communication. By reducing the amount of synchronization between agents, GALA is more computationally efficient and scalable compared to A2C, its fully-synchronous counterpart. GALA also outperforms A2C, being more robust and sample efficient. We show that we can run several loosely coupled GALA agents in parallel on a single GPU and achieve significantly higher hardware utilization and frame-rates than vanilla A2C at comparable power draws.

연구 동기 및 목표

깊이 강화 학습에서 A2C와 같은 완전히 동기화된 액터-러닝 아키텍처의 확장성과 계산 비효율성 문제를 해결하기 위해.
에이전트 간의 비동기적 피어 투 피어 통신을 통해 다중 시뮬레이터 환경에서의 학습 안정성과 샘플 효율성을 향상시키기 위해.
여러 개의 느슨하게 결합된 에이전트를 분산시켜 단일 GPU에서 높은 하드웨어 활용도와 프레임 레이트를 달성하기 위해.
비동기 통신 중에도 GALA 에이전트가 훈련 도중 서로의 에psilon-볼 내부에 머무르는 지 증명하기 위해.
감소된 동기화가 A2C에 비해 향상된 강인성과 확장성으로 이어지는 지 보여주기 위해.

제안 방법

각 액터-러닝이 게시 프로토콜을 통해 비동기적으로 통신하는 피어 투 피어 토폴로지로 구성된다.
게시 통신을 통해 에이전트는 비정기적인 간격으로 모델 파라미터와 기울기를 교환하여 동기화 병목 현상을 줄인다.
이론적 분석을 통해 훈련 도중 모든 에이전트가 상호 간에 에psilon-볼 내부에 머무르도록 보장함으로써 아키텍처가 안정성을 유지한다.
여러 개의 GALA 에이전트가 단일 GPU에 함께 위치하여 높은 하드웨어 활용도와 프레임 레이트를 달성한다.
A2C의 엄격한 동기화를 피하기 위해 느슨하게 결합된 비동기 업데이트를 활용한다.
통신 오버헤드를 최소화하면서도 다수의 분산 시뮬레이터에 걸쳐 확장 가능하도록 설계되었다.

실험 결과

연구 질문

RQ1액터-러닝 간의 비동기적 게시 기반 통신이 깊이 강화 학습에서 학습 안정성을 유지할 수 있는가?
RQ2GALA의 성능은 샘플 효율성과 하드웨어 활용도 측면에서 A2C와 비교해 어떻게 되는가?
RQ3동기화 오버헤드 없이 여러 GALA 에이전트를 단일 GPU에 효율적으로 함께 위치시킬 수 있는 정도는 어느 정도인가?
RQ4게시 메커니즘이 비동기성에도 불구하고 최적 정책의 에psilon-볼 내에서 수렴을 보장하는가?
RQ5유사한 전력 소비 조건에서 GALA는 완전히 동기화된 A2C에 비해 더 높은 프레임 레이트와 더 나은 확장성을 달성할 수 있는가?

주요 결과

GALA는 비동기 통신 중에도 모든 에이전트가 상호 간에 에psilon-볼 내부에 머무르도록 보장함으로써 훈련 중 안정성을 유지한다.
GALA는 단일 GPU에서 기존 A2C에 비해 상당히 높은 하드웨어 활용도와 프레임 레이트를 달성한다.
GALA는 샘플 효율성과 강인성에서 A2C를 능가하며, 다양한 환경에서 더 나은 학습 안정성을 보여준다.
여러 개의 느슨하게 결합된 GALA 에이전트는 A2C와 유사한 전력 소비로 단일 GPU에서 병렬로 실행될 수 있다.
동기화 요구 사항을 줄임으로써 GALA는 A2C보다 더 높은 훈련 처리량과 더 나은 확장성을 달성한다.
게시 메커니즘은 중앙 집중식 조율 없이도 에이전트 간 효과적인 파라미터 공유를 가능하게 하여 분산 환경에서의 확장성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.