Skip to main content
QUICK REVIEW

[论文解读] DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames

Erik Wijmans, Abhishek Kadian|arXiv (Cornell University)|Nov 1, 2019
Image Processing and 3D Reconstruction被引用 171
一句话总结

DD-PPO 是一个同步、去中心化的分布式强化学习方法,能够扩展到多GPU,在 Habitat-Sim 中训练 PointGoal 导航器,实现近线性加速,并在 RGB-D 输入下使用 GPS+Compass 解决 PointGoalNav。它展示了大规模训练收益、迁移能力,以及在异构环境中的强尺度性。

ABSTRACT

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).

研究动机与目标

  • 为资源密集型的 3D 具象 AI 任务提供可扩展的强化学习动机。
  • 提出一个简单的、同步的、去中心化的训练框架,不需要参数服务器。
  • 展示在 Habitat-Sim 中进行大规模 PPO 训练时的近线性扩展性和显著的性能提升。
  • 证明学习到的表示可以迁移到其他导航任务,并比较 RGB-D 与 RGB 输入。

提出的方法

  • 引入 Decentralized Distributed Proximal Policy Optimization (DD-PPO),一种无需参数服务器的同步分布式 RL 方法。
  • 工作者在 GPU 加速的模拟器中收集 rollout,并通过 PPO 计算策略梯度,然后使用 AllReduce 同步梯度。
  • 实现预占门槛以终止慢速 rollout 收集(拖后腿者),以在异构工作负载中改善扩展性。
  • 使用 DistributedDataParallel(PyTorch)并使用 TCPStore 进行协调;对 PPO 应用裁剪和 GAEs。
  • 在 Habitat 中实验各种视觉编码器(ResNet50、SE-ResNeXt50/101)以及训练数据集(Gibson-4+、Gibson-2+/MP3D)。
  • 展示该框架支持扩展到数百 GPUs 和不同的工作负载模式。

实验结果

研究问题

  • RQ1在 GPS+Compass 与 RGB-D 输入下,PointGoalNav 的可学习性的基本极限是什么?
  • RQ2增加训练数据量和使用不同的视觉编码器如何影响 PointGoalNav 的性能?
  • RQ3在 RGB-D 上预训练的 PointGoalNav 策略能否迁移到相关的具象导航任务?
  • RQ4仅使用 RGB 对 PointGoalNav 的性能及其可解性有何影响?
  • RQ5DD-PPO 在同质与异质仿真工作负载下的可扩展性如何?

主要发现

  • DD-PPO 实现近线性扩展,在 128 GPUs 上相对于串行基线实现高达 107x 的加速。
  • 在 64 GPUs 的情况下,用不到 3 天完成 2.5B 步(约 80 人年)的训练,达成 Habitat Challenge 2019 PointGoalNav with GPS+Compass 的最先进结果。
  • 误差相对于计算遵循幂律状趋势;在大约 100M 步时达到峰值性能的 90%(最快、成本最低的收益)。
  • 用 DD-PPO 学到的 PointGoalNav 策略迁移到其他任务(Flee、Explore),且在迁移设置中优于 ImageNet 预训练基线。
  • RGB-D 搭配 GPS+Compass 达到接近最短路径的表现(SPL 接近最短路径 oracle 的水平);仅 RGB 在合适的训练数据下接近最新水平;未配 GPS+Compass 的 RGB 仍然具有挑战性。
  • 学习到的表示提供可重复使用的资源,使快速适应新导航任务成为可能。)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。