QUICK REVIEW

[論文レビュー] Decentralized Distributed PPO: Solving PointGoal Navigation

Erik Wijmans, Abhishek Kadian|arXiv (Cornell University)|Nov 1, 2019

Reinforcement Learning in Robotics被引用数 15

ひとこと要約

本論文では、分散型でスケーラブルかつ同期的な強化学習フレームワーク「Decentralized Distributed PPO（DD-PPO）」を紹介する。このフレームワークは128 GPUでほぼ線形的なスケーリングを実現し、シリアル学習に比べ107倍の高速化を達成する。視覚とナビゲーションのエージェントを25億ステップ以上で訓練し、3日未満で未学習環境におけるポイントゴールナビゲーションをほぼ完璧な性能で達成する。RGB-DとGPS+コンパス入力を用い、その性能は非常に高い。

ABSTRACT

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).

研究の動機と目的

リソース集約的なシミュレーテッド環境におけるエージェント学習を可能にする、スケーラブルで分散型かつ同期的な強化学習フレームワークの開発。
実時間的な制約内で、人間の経験に相当する80年分のエージェント学習を大規模に実行可能にする。
大規模なシミュレーションでの事前学習が、下流タスクに適用可能な視覚的およびナビゲーション的ポリシーをもたらすかどうかを調査すること。
計算量とパフォーマンスのトレードオフ、特に誤差低減の観点から、スケーリングの効率を分析すること。

提案手法

中央集権的なパラメータサーバーを一切使用しない分散アーキテクチャを採用しており、複数のマシンにまたがる高スケーラビリティとフェイルセーフ性を実現している。
すべてのワーカー間で同期的な更新を実施しており、古くなった勾配が発生せず、学習の安定性が向上する。
ベースとなる強化学習アルゴリズムとして、分散型・分散実行に適応されたProximal Policy Optimization（PPO）を採用している。
RGB-D観測とGPS+コンパスセンサを入力モodalとして使用するHabitat-Sim環境で学習を実施している。
128 GPUにわたって環境のロールアウトと勾配更新を分散することで、大規模なロールアウトを可能としている。
計算量と誤差の関係に、べき乗則に類似した曲線が観察され、最小限の計算量でピークパフォーマンスの90％に早期に到達できる。

実験結果

リサーチクエスチョン

RQ1分散型で同期的かつスケーラブルなRLフレームワークは、視覚とナビゲーションエージェントの分散学習において、ほぼ線形的なスケーリングを達成できるか？
RQ2シミュレーテッド環境における大規模な学習（例：25億ステップ）によって、どの程度のパフォーマンス向上が達成可能か？
RQ3大規模なシミュレーションでの事前学習により、下流タスクに適用可能な視覚的およびナビゲーション的ポリシーが得られるか？
RQ4スケーリングの効率はどの程度か？つまり、パフォーマンス向上の大部分を達成するためにどの程度の計算量が必要か？

主な発見

DD-PPOは128 GPUにスケーリングした際、シリアル学習に比べ107倍の高速化を達成し、ほぼ線形的なスケーリングを示した。
25億ステップ（人間の経験に換算すると80年分）の学習を経たエージェントは、Habitat自律ナビゲーションチャレンジ2019でほぼ完璧なパフォーマンスを達成した。
ピークパフォーマンスの90％は、たった1億ステップの学習で達成可能であり、8 GPUで1日未満の学習で十分だった。
事前学習されたポリシーは他のナビゲーションタスクへも効果的に一般化され、ImageNetで事前学習されたCNNよりも転移学習の設定で優れた性能を示した。
訓練された視覚的およびナビゲーション的ポリシーは、最小限のファインチューニングで新しいタスクへも容易に転移可能であり、大規模な事前学習の価値を示している。
すべてのモデルとコードは公開されており、再現性の確保と、エムベデッドAIのための普遍的な事前学習リソースとしての再利用を可能としている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。