Skip to main content
QUICK REVIEW

[論文レビュー] DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM

Mingrui Li, Jiaming He|arXiv (Cornell University)|Jan 3, 2024
Advanced Vision and Imaging被引用数 9
ひとこと要約

DDN-SLAM は動的シーンのために設計されたリアルタイム密集型ニューラル・インプリシット・セマンティック SLAM システムで、ジョイントセマンティック符号化と光流ベースのマスキングを用いて、モノカラ、ステレオ、RGB-D 入力において 20–30 Hz の安定した追跡と高品質マッピングを実現します。

ABSTRACT

SLAM systems based on NeRF have demonstrated superior performance in rendering quality and scene reconstruction for static environments compared to traditional dense SLAM. However, they encounter tracking drift and mapping errors in real-world scenarios with dynamic interferences. To address these issues, we introduce DDN-SLAM, the first real-time dense dynamic neural implicit SLAM system integrating semantic features. To address dynamic tracking interferences, we propose a feature point segmentation method that combines semantic features with a mixed Gaussian distribution model. To avoid incorrect background removal, we propose a mapping strategy based on sparse point cloud sampling and background restoration. We propose a dynamic semantic loss to eliminate dynamic occlusions. Experimental results demonstrate that DDN-SLAM is capable of robustly tracking and producing high-quality reconstructions in dynamic environments, while appropriately preserving potential dynamic objects. Compared to existing neural implicit SLAM systems, the tracking results on dynamic datasets indicate an average 90% improvement in Average Trajectory Error (ATE) accuracy.

研究の動機と目的

  • ニューラル・インプリシット SLAM における動的オブジェクトの干渉を解消し、堅牢でリアルタイムな dense マッピングを実現する。
  • セマンティック priors と光フローベースの検証を活用して静的点と動的点を分割する。
  • 深度ガイド付き静的マスキングとスキップボクセルの背景充填を開発し、効率と品質を向上させる。
  • 単眼、ステレオ、RGB-D 入力をサポートし、ループクロージャとグローバルバンドル Adjustment を実施。
  • 複数の動的/静的データセットで最先端の追跡と再構成を示す。

提案手法

  • 深度と光流異常を用いて静的点と動的点を分離する、結合セマンティック座標・ハッシュ符号化。
  • YOLOv5 の priors と t 分布に基づくアウトライヤーテストを用いた深度ガイド付き静的マスキングで動的点を識別。
  • 動的境界ボックス内の静的点フィルタリングを補強する Sparse Optical-Flow 検証。
  • 多解像度ハッシュ符号化(NeRF風)と背景のスキップボクセル充填による効率的マッピングを用いた体積レンダリング。
  • 動的シーンのドリフトを減らすためのキーフレームベースのループ検出とグローバルバンドル Adjustment。
  • Tracking は光流情報を活用した制約と不確実性を考慮した深度監視を用い、BA はカメラポーズと地図点を共同最適化。

実験結果

リサーチクエスチョン

  • RQ1動的環境において、セマンティック priors と流れの一貫性はリアルタイム dense SLAM の静的/動的分割を堅牢に可能にするか。
  • RQ2結合セマンティック符号化と多解像度ハッシュ表現は、モノカラ、ステレオ、RGB-D 入力全体で再構成品質と追跡安定性を向上させるか。
  • RQ3DDN-SLAM は動的シーンでのループクロージャとグローバルバンドル Adjustment を、従来のニューラル・インプリシット SLAM 手法と比較してどう機能するか。
  • RQ4標準データセット(例: TUM RGB-D, Bonn, OpenLORIS-Scene, Replica, ScanNet, EuRoC)での DDNS-SLAM の実行時間とメモリトレードオフはどの程度か。

主な発見

手法完了率歩行/xyz歩行/半分歩行/静的歩行/RPY座位/xyz座位/半分平均
LC-CRF SLAM100%0.0270.0240.0790.1860.0270.0980.066
Crowd-SLAM100%0.0370.0140.0260.0290.0190.0350.038
ORB-SLAM293%0.0650.2300.3200.0390.4960.9890.373
NICE-SLAM79%2.4422.0180.1770.8321.9343.5821.470
ESLAM61%0.2030.2350.1900.1290.4161.1421.325
Co-SLAM44%0.2110.4800.0760.2000. -0. -7.052
DDN-SLAM(RGB)100%0.0180.0410.0200.0320.0180.0230.029
DDN-SLAM100%0.0140.0230.0100.0390.0100.0170.020
  • DDN-SLAM はモノカラ、ステレオ、RGB-D の入力で 20–30 Hz のリアルタイム追跡と密集マッピングを達成。
  • 動的マスクと光流検証により動的干渉を効果的に排除し、難易度の高い動的シーンで競争力のある追跡と再構成を実現。
  • TUM RGB-D の動的シーケンスでは、平均約 0.020 m 程度の ATE RMSE を含む競争力のある値を示す。
  • Bonn の動的シーケンスで 100% の追跡完了を達成し、RMSE(平均約 0.067 m)で低い値を示す。
  • OpenLORIS-Scene 設定では、DDN-SLAM は強い追跡完了率(多くは 100%)と競争力の RMSE/PSNR 指標を示し、動的条件下でいくつかのニューラル・インプリシット ベースラインを上回る。
  • 静的シーンでは、マッピング効率の点で伝統的およびニューラル・インプリシット ベースラインと競争力を保ち、軽量なプラットフォームに適したマッピング時間とメモリフットプリントが報告されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。