Skip to main content
QUICK REVIEW

[論文レビュー] DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras

Zachary Teed, Jia Deng|arXiv (Cornell University)|Aug 24, 2021
Robotics and Sensor-Based Localization参考文献 53被引用数 233
ひとこと要約

DROID-SLAM は、Dense Bundle Adjustment レイヤーを用いて、カメラ姿勢とピクセル単位の深度を同時に更新する微分可能な再帰最適化 SLAM システムを導入し、モノキュラー、ステレオ、RGB-D 入力に対して再学習なしで最先端の精度と頑健性を実現します。

ABSTRACT

We introduce DROID-SLAM, a new deep learning based SLAM system. DROID-SLAM consists of recurrent iterative updates of camera pose and pixelwise depth through a Dense Bundle Adjustment layer. DROID-SLAM is accurate, achieving large improvements over prior work, and robust, suffering from substantially fewer catastrophic failures. Despite training on monocular video, it can leverage stereo or RGB-D video to achieve improved performance at test time. The URL to our open source code is https://github.com/princeton-vl/DROID-SLAM.

研究の動機と目的

  • モノキュラー、ステレオ、RGB-D のモダリティ全体で、堅牢で正確なビジュアル SLAM を動機づける。
  • 姿勢と密な深度を同時に最適化するディープラーニング SLAM フレームワークを開発する。
  • モノキュラー学習がステレオと RGB-D のテストへと横断的に一般化できるようにする。
  • 微分可能な DBA レイヤを組み込み、古典的な幾何と学習更新を融合させる。

提案手法

  • エンドツーエンドの微分可能なパイプラインを用い、カメラ姿勢と逆深度に関する再帰更新を行う。
  • 共可視フレームを捉えるフレームグラフを表現し、3x3 ConvGRU で更新を行う。
  • RAFT に触発された相関ピラミッドを用いて、画像ペアから密な対応と相関特徴を計算する。
  • フローの改版と信頼度マップを予測し、微分可能な Dense Bundle Adjustment を適用して姿勢と深度の更新を得る。
  • 姿勢とフローの監視付きで訓練し、モノキュラー訓練でゲージ自由度を固定するため最初の二つの姿勢をアンカーにする。
  • DBA レイヤを調整し、必要に応じて深度測定を組み込むことで、ステレオと RGB-D に拡張する。

実験結果

リサーチクエスチョン

  • RQ1ディープラーニング SLAM システムは、モノキュラー、ステレオ、RGB-D 入力の全てで高精度と頑健性を同時に達成できるか。
  • RQ2反復的で微分可能な最適化(DROID)は、複数フレームにわたってカメラ姿勢と密な深度を共同で refin できるか。
  • RQ3密なバンドル調整層の導入は、従来の SLAM アプローチと比べて精度と故障率にどのような影響を与えるか。
  • RQ4モノキュラー訓練モデルは retraining なしでステレオおよび RGB-D テストへ一般化できる程度か。
  • RQ5標準ベンチマーク上でのリアルタイムのエンドツーエンドな深層 SLAM システムの性能特性(速度、メモリ)はどの程度か。

主な発見

  • 複数データセットとモダリティにおいて最先端の精度を達成し、従来比で大きな相対的改善を示す。
  • ETH-3D、TartanAir、EuRoC、TUM-RGBD などのデータセットで、致命的な故障が大幅に少なく高い頑健性を示す。
  • 強い一般化を示す:モノキュラーのみで訓練されたモデルが、テスト時にステレオや RGB-D 入力を効果的に活用できる。
  • TartanAir モノキュラーで、最良の従来結果に対して誤差を62%削減;ステレオでは60%削減。
  • ETH-3D RGB-D で AUC で1位、30/32 の RGB-D データセットを追跡しており、次点を大きく上回る。
  • Euroc、TUM-RGBD、ETH-3D のベンチマーク全体で、古典的な SLAM ベースラインと多くの深層学習系に対して優位。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。