QUICK REVIEW

[論文レビュー] Dense RGB SLAM with Neural Implicit Maps

Heng Li, Xiaodong Gu|arXiv (Cornell University)|Jan 21, 2023

Robotics and Sensor-Based Localization被引用数 10

ひとこと要約

この研究は、ニューラルインプリットマップとマルチ分解能特徴量ボリュームとMLPデコーダを用いたニューラル密なRGB専用SLAMシステムを提案します。カメラ姿勢をフォトメトリックレンダリングとマルチスケールパッチベースのワーピング損失を用いて共同最適化します。ベンチマークで最先端に近い結果を達成し、いくつかのRGB-D手法を上回ることができます。

ABSTRACT

There is an emerging trend of using neural implicit functions for map representation in Simultaneous Localization and Mapping (SLAM). Some pioneer works have achieved encouraging results on RGB-D SLAM. In this paper, we present a dense RGB SLAM method with neural implicit map representation. To reach this challenging goal without depth input, we introduce a hierarchical feature volume to facilitate the implicit map decoder. This design effectively fuses shape cues across different scales to facilitate map reconstruction. Our method simultaneously solves the camera motion and the neural implicit map by matching the rendered and input video frames. To facilitate optimization, we further propose a photometric warping loss in the spirit of multi-view stereo to better constrain the camera pose and scene geometry. We evaluate our method on commonly used benchmarks and compare it with modern RGB and RGB-D SLAM systems. Our method achieves favorable results than previous methods and even surpasses some recent RGB-D SLAM methods.The code is at poptree.github.io/DIM-SLAM/.

研究の動機と目的

深度センサーを用いずRGB入力だけで、ニューラルインプリットマップを用いた密なビジュアルSLAMを動機づけ、実現する。
頑健でスケーラブルな暗黙のシーン表現を支える階層的なマルチ分解能特徴量ボリュームを提案する。
微分可能レンダリングと多視点フォトメトリック制約を用いて、カメラ軌跡と暗黙のマップを共同最適化する。
ジオメトリの整合性を確保しつつ、視点依存の照明に対処するため、画像パッチ全体にわたる堅牢なワーピング損失を開発する。

提案手法

学習可能な多分解能特徴量ボリューム {V_l} と深度とカラー予測のためのMLPデコーダ Phi を用いてシーンを表現する。
全てのボリュームレベルからビュー光線に沿って特徴をサンプルし、F(p) に連結して Phi に入力し、占有度 o_p と色 c_p を予測する。
光線に沿った階層的サンプリングを用いて深度と色をレンダリングし、重み w_i を用いて old D tilde = sum w_i z_i, I tilde = sum w_i c_i の式を適用する。
レンダリング結果の色と観測された色との間で、ピクセル集合に対してフォトメトリックレンダリング損失 L_render を適用する。
推定姿勢と深度を用いて視点間にピクセルを投影するフォトメトリックワーピング損失 L_warping を導入し、ビュー依存の照明効果を緩和するため SSIM を用いた画像パッチ全体で計算する。
十分なクロスビュー可視性を持つピクセルをフィルタリングする可視性マスクと、エッジに敏感な重み付けで深度の滑らかさ正則化項 L_smooth を適用する。

実験結果

リサーチクエスチョン

RQ1RGBのみのビジュアルSLAMは、ニューラルインプリットマップを用いて競争力のある密な再構成とカメラ追跡を実現できるか？
RQ2階層的なマルチ分解能特徴量ボリュームは、RGBのみの入力に対してマップ品質と追跡の堅牢性を向上させるか？
RQ3深度測定なしで姿勢と幾何を制約するうえで、マルチスケールのパッチベースワーピング損失はどれほど効果的か？
RQ41台対2台のGPU使用や異なる特徴量ボリューム構成で、メモリ・計算量・精度のトレードオフはどうなるか？

主な発見

提案されたRGBのみ密なSLAMとニューラルインプリットマップは、ベンチマークデータセットで有利な追跡とマッピング結果を達成し、特定のケースでいくつかのRGB-D手法を上回る。
6レベルの階層的特徴量ボリューム（8 cm から 64 cm）と共通のMLPデコーダは、低スケール構成と比較して頑健性と精度を向上させる。
マルチスケールのパッチベースのワーピング損失は、視点依存の照明効果を緩和することにより、RGB入力下での姿勢と幾何の制約を改善する。
本手法はReplica/EuRoCデータセットで強力な追跡性能を示し、深度入力に依存せずRGB-Dデータセットでも競争力のある結果を示す。
本手法は二 GPU 構成でリアルタイム寄りの性能を実現し、いくつかのベースラインよりメモリと FLOPs が低いことを示す一方、いくつかのシナリオでより高品質な再構成を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。