[论文解读] Decentralized Distributed PPO: Solving PointGoal Navigation
本文提出去中心化分布式PPO(DD-PPO),一种可扩展、去中心化且同步的强化学习框架,可在128块GPU上实现接近线性的扩展,相较于串行训练实现107倍加速。该框架在三天内完成25亿步的视觉与导航智能体训练,仅使用RGB-D和GPS+罗盘输入,在未见过的环境中实现近乎完美的点目标导航。
We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).
研究动机与目标
- 开发一种可扩展、去中心化且同步的强化学习框架,用于在资源密集型模拟环境中训练智能体。
- 在实际时钟时间内实现相当于80年人类经验的具身智能体大规模训练。
- 探究大规模模拟预训练是否能产生可迁移的视觉与导航策略,用于下游任务。
- 通过分析计算与性能之间的权衡,研究扩展效率,特别是误差减少方面的表现。
提出的方法
- DD-PPO采用无中心化参数服务器的去中心化架构,可在多台机器间实现高可扩展性与容错能力。
- 方法在所有工作节点间采用同步更新,确保无梯度延迟,简化训练稳定性。
- 基于近端策略优化(PPO)算法作为基础强化学习算法,并针对分布式、去中心化执行进行适配。
- 训练在Habitat-Sim环境中进行,输入模态为RGB-D观测与GPS+罗盘传感器。
- 通过在128块GPU上分发环境滚动和梯度更新,框架支持大规模滚动。
- 观察到误差与计算量之间呈现类似幂律的曲线,可在计算量极少时实现90%的峰值性能,实现早期收敛。
实验结果
研究问题
- RQ1去中心化、同步且可扩展的强化学习框架是否能在视觉与导航智能体的分布式训练中实现接近线性扩展?
- RQ2在模拟环境中进行大规模训练(如25亿步)可实现多大性能提升?
- RQ3在大规模模拟环境中进行预训练是否能产生可迁移的视觉与导航策略,用于下游任务?
- RQ4扩展效率如何?需要多少计算量才能获得大部分性能增益?
主要发现
- 当扩展至128块GPU时,DD-PPO相较于串行训练实现107倍加速,证明了接近线性的可扩展性。
- 训练25亿步(相当于80年人类经验)的智能体在Habitat自主导航挑战2019中实现近乎完美的性能。
- 仅需1亿步训练(使用8块GPU不到一天时间)即可达到峰值性能的90%。
- 预训练策略在其他导航任务中表现出良好的泛化能力,优于在ImageNet上预训练的CNN模型在迁移学习设置下的表现。
- 训练得到的视觉与导航策略可仅通过极少微调即迁移到新任务,证明大规模预训练的价值。
- 所有模型与代码均已公开发布,支持可复现性与重用,可作为具身人工智能的通用预训练资源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。