Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Explore using Active Neural SLAM

Devendra Singh Chaplot, Dhiraj Gandhi|arXiv (Cornell University)|Apr 10, 2020
Robot Manipulation and Learning被引用数 220
ひとこと要約

Active Neural SLAM は、学習済み Neural SLAM モジュール、Global policy、Local policy を備えたモジュラーで階層的なナビゲーションシステムを構築し、最先端の探索と PointGoal タスクへの成功した転移を達成します。

ABSTRACT

This work presents a modular and hierarchical approach to learn policies for exploring 3D environments, called `Active Neural SLAM'. Our approach leverages the strengths of both classical and learning-based methods, by using analytical path planners with learned SLAM module, and global and local policies. The use of learning provides flexibility with respect to input modalities (in the SLAM module), leverages structural regularities of the world (in global policies), and provides robustness to errors in state estimation (in local policies). Such use of learning within each module retains its benefits, while at the same time, hierarchical decomposition and modular training allow us to sidestep the high sample complexities associated with training end-to-end policies. Our experiments in visually and physically realistic simulated 3D environments demonstrate the effectiveness of our approach over past learning and geometry-based approaches. The proposed model can also be easily transferred to the PointGoal task and was the winning entry of the CVPR 2019 Habitat PointGoal Navigation Challenge.

研究の動機と目的

  • 未知の3D環境における探索効率と状態推定誤差に対する頑健性を動機づける。
  • 学習された SLAM モジュールと古典的プランニングを組み合わせたモジュラーアーキテクチャを提案する。
  • エンドツーエンド学習と比較してサンプル複雑性を低減するために階層的意思決定を活用する。
  • PointGoal ナビゲーションへの転送と実世界での適用性を実証する。

提案手法

  • Mapと解析的 planner を介してインタフェースされる Neural SLAM モジュール、Global policy、Local policy の3コンポーネントアーキテクチャを導入する。
  • Neural SLAM は Mapper と Pose Estimator から成り、RGB およびセンサデータから自分中心の地図と姿勢を予測する。
  • Global policy は地図と姿勢を取り込み、Fast Marching Method を用いて短期ゴールに変換される長期ゴールを出力する。
  • Local policy は学習されたポリシー(ResNet18 エンコーダを用いる)で、RGB 観測を行動へマッピングし、短期ゴールへ到達する。
  • トレーニングはモジュラーで、SLAM のための地図/姿勢の監 supervision、Global policy の RL、Local policy の模倣学習を組み合わせ、サンプル効率を実現する。

実験結果

リサーチクエスチョン

  • RQ1学習を古典的なナビゲーション・パイプラインに統合して探索効率を改善するにはどうすればよいか?
  • RQ2学習済みの SLAM とポリシーを備えたモジュラーで階層的な設定は、3D 探索タスクにおけるエンドツーエンド学習のベースラインより優れているか?
  • RQ3Gibson から Matterport など異なるドメイン間で一般化し、再学習せずに PointGoal タスクへ転移できるか?
  • RQ4各モジュール(SLAM、Global policy、Local policy)が性能とセンサ/アクチュエーションノイズに対する頑健性に与える影響は何か?

主な発見

  • Active Neural SLAM モデルは Gibson と MP3D の両方のドメインで探索指標においてベースラインを上回る。
  • 階層的モジュラー設計は探索空間を削減し、エンドツーエンドのベースラインと比較してサンプル効率を向上させる。
  • 本手法は強いドメイン一般化を示し、Gibson で訓練されたポリシーを Matterport へ転移させ、カバレッジの改善を達成。
  • 追加の訓練なしで PointGoal ナビゲーションへ転移し、CVPR 2019 Habitat PointGoal Navigation Challenge で優勝した。
  • アブレーション研究は、Local Policy および姿勢推定の監督が頑健性と長期的計画に寄与することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。