Skip to main content
QUICK REVIEW

[논문 리뷰] Decentralized Distributed PPO: Solving PointGoal Navigation

Erik Wijmans, Abhishek Kadian|arXiv (Cornell University)|2019. 11. 01.
Reinforcement Learning in Robotics인용 수 15
한 줄 요약

이 논문은 128개의 GPU에서 near-linear 스케일링을 가능하게 하며, 순차 학습 대비 107배의 속도 향상을 달성하는 확장 가능하고 탈중앙화되며 동기식 강화학습 프레임워크인 분산형 분산 PPO(DD-PPO)를 소개한다. 이 프레임워크는 RGB-D 및 GPS+자-pass 입력만을 사용하여 미리 보지 않은 환경에서 포인트-목표 탐색을 거의 완벽한 성능으로 해결하는 시각-내비게이션 에이전트를 3일 이내로 25억 스텝 동안 훈련시킨다.

ABSTRACT

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).

연구 동기 및 목표

  • 자원 집약적인 시뮬레이션 환경에서 에이전트를 훈련하기 위한 확장 가능하고 탈중앙화되며 동기식 강화학습 프레임워크를 개발하는 것.
  • 실제 벽시계 시간 내에서 인간 경험의 80년에 해당하는 대규모 에이전트 훈련을 가능하게 하는 것.
  • 대규모 시뮬레이션에서의 사전 훈련이 후속 작업을 위한 전이 가능한 시각적 및 내비게이션 정책을 제공할 수 있는지 조사하는 것.
  • 오차 감소 측면에서 계산과 성능 간의 트레이드오프를 분석함으로써 스케일링의 효율성을 분석하는 것.

제안 방법

  • 중앙 집중식 파rameter 서버가 없는 탈중앙화 아키텍처를 사용하여 다수의 머신 간에 고도로 확장 가능하고 장애 내성 있는 구조를 구현한다.
  • 모든 워커 간에 동기 업데이트를 적용하여 오래된 기울기 없이 안정적인 훈련을 보장한다.
  • 기본 강화학습 알고리즘으로 Proximal Policy Optimization(PPO)를 사용하며, 분산형 탈중앙화 실행에 적합하게 수정한다.
  • RGB-D 관측치와 GPS+자-pass 센서를 입력 모odal로 사용하여, Habitat-Sim 환경에서 훈련을 수행한다.
  • 128개의 GPU에 걸쳐 환경 롤아웃과 기울기 업데이트를 분산하여 대규모 롤아웃을 지원한다.
  • 계산과 오차 간의 파wr-법칙 유사 곡선을 관찰하여, 최고 성능의 90%에 도달하는 데 최소한의 계산 자원으로 조기 수렴이 가능하다.

실험 결과

연구 질문

  • RQ1탈중앙화되고 동기적이며 확장 가능한 강화학습 프레임워크가 시각-내비게이션 에이전트의 분산 훈련에서 near-linear 스케일링을 달성할 수 있는가?
  • RQ2시뮬레이션 환경에서 대규모 훈련(예: 25억 스텝)을 통해 얼마나 많은 성능 향상이 달성될 수 있는가?
  • RQ3대규모 시뮬레이션에서의 사전 훈련이 후속 작업을 위한 전이 가능한 시각적 및 내비게이션 정책을 제공하는가?
  • RQ4스케일링의 효율성은 어떠한가? 대부분의 성능 향상을 달성하기 위해 얼마나 많은 계산 자원이 필요한가?

주요 결과

  • DD-PPO는 128개의 GPU로 확장할 때 순차 학습 대비 107배의 속도 향상을 달성하여 near-linear 확장성을 입증한다.
  • 25억 스텝(인간 경험의 80년에 해당)을 훈련한 에이전트는 Habitat 자율 내비게이션 챌린지 2019에서 거의 완벽한 성능을 달성한다.
  • 최고 성능의 90%는 단지 1억 스텝에서 도달되며, 8개의 GPU로 1일 이내에 훈련이 가능하다.
  • 사전 훈련된 정책은 다른 내비게이션 작업으로 효과적으로 일반화되며, 전이 학습 설정에서 ImageNet 사전 훈련된 CNN보다 뛰어난 성능을 보인다.
  • 훈련된 시각적 및 내비게이션 정책는 최소한의 피팅 튜닝만으로도 새로운 작업에 전이될 수 있어 대규모 사전 훈련의 가치를 입증한다.
  • 모든 모델과 코드는 공개되어 있어 재현성과 재사용이 가능하며, 몸이 있는 AI를 위한 통합 사전 훈련 자원으로 활용될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.