Skip to main content
QUICK REVIEW

[論文レビュー] NeSLAM: Neural Implicit Mapping and Self-Supervised Feature Tracking With Depth Completion and Denoising

Tianchen Deng, Yanbo Wang|arXiv (Cornell University)|Mar 29, 2024
Advanced Vision and Imaging被引用数 6
ひとこと要約

要約: NeSLAM は深度補完とノイズ除去を統合し、ニューラルインプリットマッピングのための密なジオメトリを提供します。占有格子を Signed Distance Field に置換し、室内の RGB-D SLAM と新規ビュー合成の頑健性を高める NeRF ベースの自己教師付き特徴追跡を導入します。

ABSTRACT

In recent years, there have been significant advancements in 3D reconstruction and dense RGB-D SLAM systems. One notable development is the application of Neural Radiance Fields (NeRF) in these systems, which utilizes implicit neural representation to encode 3D scenes. This extension of NeRF to SLAM has shown promising results. However, the depth images obtained from consumer-grade RGB-D sensors are often sparse and noisy, which poses significant challenges for 3D reconstruction and affects the accuracy of the representation of the scene geometry. Moreover, the original hierarchical feature grid with occupancy value is inaccurate for scene geometry representation. Furthermore, the existing methods select random pixels for camera tracking, which leads to inaccurate localization and is not robust in real-world indoor environments. To this end, we present NeSLAM, an advanced framework that achieves accurate and dense depth estimation, robust camera tracking, and realistic synthesis of novel views. First, a depth completion and denoising network is designed to provide dense geometry prior and guide the neural implicit representation optimization. Second, the occupancy scene representation is replaced with Signed Distance Field (SDF) hierarchical scene representation for high-quality reconstruction and view synthesis. Furthermore, we also propose a NeRF-based self-supervised feature tracking algorithm for robust real-time tracking. Experiments on various indoor datasets demonstrate the effectiveness and accuracy of the system in reconstruction, tracking quality, and novel view synthesis.

研究の動機と目的

  • 室内環境でのノイズのある疎な深度を用いた頑健でリアルタイムな密な SLAM を実現する動機付け。
  • ニューラルインプリットマッピングの正確なジオメトリ priors を提供するため、密な深度補完/ノイズ除去モジュールを開発する。
  • ジオメトリの忠実度と視点合成を向上させるため、Signed Distance Field (SDF) の階層的なシーン表現を採用する。
  • 現実的な室内環境下でのカメラ追跡を改善するため、NeRF を用いた自己教師付き特徴追跡法を提案する。
  • 綿密な実験とアブレーションにより、エンドツーエンドの頑健性、スケーラビリティ、品質の高い新規ビュー合成を実証する。

提案手法

  • 深度補完とノイズ除去ネットワークは、密な深度、深度不確かさ、およびニューラルサンプリングと最適化を導く信頼度マップを提供します。
  • 表面の精度向上のため、占有グリッドを三段階の階層的SDFベースのジオメトリ表現に置換する。
  • 粗化から細化へと段階的に変化するマルチグリッドジオメトリとカラーグリッドを用いた NeRF ベースの微分可能レンダリングを用い、ジオメトリと外観を共同最適化します。
  • NeRF ベースの自己教師付き特徴追跡により、外部の重い監視なしで頑健なリアルタイムのカメラ追跡を実現します。
  • 並行する二つのスレッド(マッピングとトラッキング)がオンラインで動作し、交互の最適化と、ジオメトリ的一貫性と安定した軌跡を保証する一連の設計済み損失項(深度、カラー、Eikonal、ICP)を用います。

実験結果

リサーチクエスチョン

  • RQ1消費者向け RGB-D センサー由来の深度の疎さとノイズをどのように緩和して、正確なニューラルインプリットマッピングを実現できるか。
  • RQ2深度補完と denoising priors は、ニューラルインプリットシーン表現と新規ビュー合成の品質を改善できるか。
  • RQ3占有を Signed Distance Field (SDF) に置換する階層表現は、ジオメトリの忠実度とレンダリング品質を向上させるか。
  • RQ4NeRF ベースの自己教師付き特徴追跡は、難易度の高い室内環境で頑健なリアルタイムのカメラ追跡を提供できるか。
  • RQ5室内データセットにおける NeSLAM の再構成品質、追跡精度、ビュー合成の総合的な性能優位性はどの程度か。

主な発見

  • NeSLAM は室内データセット上で、最新の暗黙的マッピングベースラインと比較して、視照合と三次元再構成品質が優れる。
  • 深度補完とデノイズは密なジオメトリの priors を提供し、 implicit 表現のサンプリング効率と幾何的一貫性を改善する。
  • SDF ベースの階層シーン表現は、占有ベースの手法よりも表面の精度とレンダリングのリアリズムを向上させる。
  • NeRF ベースの自己教師付き特徴追跡は、多様な室内シーンで頑健なリアルタイムのカメラ追跡を実現し、ランダムピクセル戦略よりも優れる。
  • Replica、ScanNet、実世界データセットを用いた広範な実験とアブレーションで、追跡精度、再構成品質、合成結果が向上している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。