QUICK REVIEW

[논문 리뷰] Decentralized Distributed PPO: Solving PointGoal Navigation

Erik Wijmans, Abhishek Kadian|arXiv (Cornell University)|2019. 11. 01.

Reinforcement Learning in Robotics인용 수 15

한 줄 요약

이 논문은 128개의 GPU에서 near-linear 스케일링을 가능하게 하며, 순차 학습 대비 107배의 속도 향상을 달성하는 확장 가능하고 탈중앙화되며 동기식 강화학습 프레임워크인 분산형 분산 PPO(DD-PPO)를 소개한다. 이 프레임워크는 RGB-D 및 GPS+자-pass 입력만을 사용하여 미리 보지 않은 환경에서 포인트-목표 탐색을 거의 완벽한 성능으로 해결하는 시각-내비게이션 에이전트를 3일 이내로 25억 스텝 동안 훈련시킨다.

ABSTRACT

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).

연구 동기 및 목표

자원 집약적인 시뮬레이션 환경에서 에이전트를 훈련하기 위한 확장 가능하고 탈중앙화되며 동기식 강화학습 프레임워크를 개발하는 것.
실제 벽시계 시간 내에서 인간 경험의 80년에 해당하는 대규모 에이전트 훈련을 가능하게 하는 것.
대규모 시뮬레이션에서의 사전 훈련이 후속 작업을 위한 전이 가능한 시각적 및 내비게이션 정책을 제공할 수 있는지 조사하는 것.
오차 감소 측면에서 계산과 성능 간의 트레이드오프를 분석함으로써 스케일링의 효율성을 분석하는 것.

제안 방법

중앙 집중식 파rameter 서버가 없는 탈중앙화 아키텍처를 사용하여 다수의 머신 간에 고도로 확장 가능하고 장애 내성 있는 구조를 구현한다.
모든 워커 간에 동기 업데이트를 적용하여 오래된 기울기 없이 안정적인 훈련을 보장한다.
기본 강화학습 알고리즘으로 Proximal Policy Optimization(PPO)를 사용하며, 분산형 탈중앙화 실행에 적합하게 수정한다.
RGB-D 관측치와 GPS+자-pass 센서를 입력 모odal로 사용하여, Habitat-Sim 환경에서 훈련을 수행한다.
128개의 GPU에 걸쳐 환경 롤아웃과 기울기 업데이트를 분산하여 대규모 롤아웃을 지원한다.
계산과 오차 간의 파wr-법칙 유사 곡선을 관찰하여, 최고 성능의 90%에 도달하는 데 최소한의 계산 자원으로 조기 수렴이 가능하다.

실험 결과

연구 질문

RQ1탈중앙화되고 동기적이며 확장 가능한 강화학습 프레임워크가 시각-내비게이션 에이전트의 분산 훈련에서 near-linear 스케일링을 달성할 수 있는가?
RQ2시뮬레이션 환경에서 대규모 훈련(예: 25억 스텝)을 통해 얼마나 많은 성능 향상이 달성될 수 있는가?
RQ3대규모 시뮬레이션에서의 사전 훈련이 후속 작업을 위한 전이 가능한 시각적 및 내비게이션 정책을 제공하는가?
RQ4스케일링의 효율성은 어떠한가? 대부분의 성능 향상을 달성하기 위해 얼마나 많은 계산 자원이 필요한가?

주요 결과

DD-PPO는 128개의 GPU로 확장할 때 순차 학습 대비 107배의 속도 향상을 달성하여 near-linear 확장성을 입증한다.
25억 스텝(인간 경험의 80년에 해당)을 훈련한 에이전트는 Habitat 자율 내비게이션 챌린지 2019에서 거의 완벽한 성능을 달성한다.
최고 성능의 90%는 단지 1억 스텝에서 도달되며, 8개의 GPU로 1일 이내에 훈련이 가능하다.
사전 훈련된 정책은 다른 내비게이션 작업으로 효과적으로 일반화되며, 전이 학습 설정에서 ImageNet 사전 훈련된 CNN보다 뛰어난 성능을 보인다.
훈련된 시각적 및 내비게이션 정책는 최소한의 피팅 튜닝만으로도 새로운 작업에 전이될 수 있어 대규모 사전 훈련의 가치를 입증한다.
모든 모델과 코드는 공개되어 있어 재현성과 재사용이 가능하며, 몸이 있는 AI를 위한 통합 사전 훈련 자원으로 활용될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.