[論文レビュー] Hi-Map: Hierarchical Factorized Radiance Field for High-Fidelity Monocular Dense Mapping
Hi-Mapは、階層的因子化グリッドとデュアルパスエンコーディングを用いたNeRFベースの単眼密集マッピング手法を提案し、深度 priors なしで高忠実度の再構成を実現します。Replicaデータセット上で最先端の単眼法を上回ります。
In this paper, we introduce Hi-Map, a novel monocular dense mapping approach based on Neural Radiance Field (NeRF). Hi-Map is exceptional in its capacity to achieve efficient and high-fidelity mapping using only posed RGB inputs. Our method eliminates the need for external depth priors derived from e.g., a depth estimation model. Our key idea is to represent the scene as a hierarchical feature grid that encodes the radiance and then factorizes it into feature planes and vectors. As such, the scene representation becomes simpler and more generalizable for fast and smooth convergence on new observations. This allows for efficient computation while alleviating noise patterns by reducing the complexity of the scene representation. Buttressed by the hierarchical factorized representation, we leverage the Sign Distance Field (SDF) as a proxy of rendering for inferring the volume density, demonstrating high mapping fidelity. Moreover, we introduce a dual-path encoding strategy to strengthen the photometric cues and further boost the mapping quality, especially for the distant and textureless regions. Extensive experiments demonstrate our method's superiority in geometric and textural accuracy over the state-of-the-art NeRF-based monocular mapping methods.
研究の動機と目的
- 深度 priors なしの姿勢付き RGB 入力のみから、効率的で高忠実度な密集マッピングを動機づける。
- シーンを単純化し、新しい観測に対して高速収束を実現する階層的因子化表現を導入する。
- 遠景/テクスチャの乏しい領域で再構成を改善し、フォトメトリック手がかりを強化するデュアルパスエンコーディングを提案する。
- 最適化を安定化し忠実度を向上させるため、SDF の代理プロキシを用いたレンダリング手法を採用する。
- 標準的なベンチマーク(Replica データセット)で、幾何学的および質感の精度が優れていることを示す。
提案手法
- 4Dテンソルを x, y, z 軸に沿って低秩成分に分解する多解像度の因子化特徴グリッドでシーンを表現する。
- 形状と外観を別々の小さなMLPを用いてデコードし、SDF と色を生成し、外観は絶対座標に条件付ける。
- SDF の微分可能なプロキシ関数から密度を得る代理ベースのレンダリングを用い、滑らかな勾配を実現する。
- サンプル座標に基づく外観条件付けで視点依存効果を扱い、ジオメトリと外観を別々に学習するデュアルパスエンコーディングを採用する。
- マルチビュー整合性を強制するため、フォトメトリックカラー再構成損失とフレーム間ワーピング損失を最小化して、スライディングウィンドウ方式でオンライン学習を行う。
実験結果
リサーチクエスチョン
- RQ1外部の深度 priors なしで、単眼 NeRF ベースのマッピングは高忠実度を達成できるか?
- RQ2階層的因子化は、未知の視点を再構成する際のメモリ効率と収束性を改善するか?
- RQ3デュアルパスエンコーディングは、フォトメトリック手がかりを強化し、テクスチャの乏しいまたは遠距離の領域での再構成を改善できるか?
- RQ4SDF を用いた代理ベース密度レンダリングが収束と品質に与える影響は何か?
主な発見
| Metric | Method | Room 0 | Room 1 | Room 2 | Office 0 | Office 1 | Office 2 | Office 3 | Office 4 | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|
| PSNR ↑ | GO-SLAM* | 14.30 | 16.34 | 17.43 | 18.23 | 20.79 | 13.31 | 14.07 | 15.25 | 16.18 |
| PSNR ↑ | Hi-Map | 23.48 | 27.81 | 27.09 | 32.65 | 33.74 | 24.23 | 22.72 | 27.15 | 27.36 |
| SSIM ↑ | GO-SLAM* | 0.37 | 0.47 | 0.49 | 0.38 | 0.44 | 0.49 | 0.47 | 0.51 | 0.45 |
| SSIM ↑ | Hi-Map | 0.70 | 0.78 | 0.81 | 0.86 | 0.85 | 0.78 | 0.75 | 0.84 | 0.80 |
| Depth L1 ↓ | GO-SLAM* | 0.33 | 0.24 | 0.27 | 0.20 | 0.18 | 0.31 | 0.47 | 0.36 | 0.30 |
| Depth L1 ↓ | Hi-Map | 0.15 | 0.04 | 0.11 | 0.03 | 0.02 | 0.17 | 0.38 | 0.17 | 0.13 |
| Acc. [cm]↓ | iMODE [31] | 5.58 | 4.68 | - | 3.27 | 4.09 | 4.76 | 5.21 | 4.70 | 4.61 |
| Acc. [cm]↓ | Hi-Map | 6.51 | 4.93 | 5.10 | 3.55 | 3.45 | 7.06 | 9.50 | 7.70 | 5.98 |
| Comp. [cm]↓ | iMODE [31] | 13.50 | 10.10 | 19.20 | 9.70 | 17.00 | 14.50 | 11.80 | 15.40 | 13.90 |
| Comp. [cm]↓ | Hi-Map | 6.10 | 5.25 | 6.01 | 11.60 | 10.49 | 6.89 | 6.62 | 6.36 | 7.42 |
| Comp. Ratio [%]↑ | iMODE [31] | 38.70 | 46.10 | 36.10 | 49.3 | 30.10 | 29.80 | 36.00 | 31.00 | 37.10 |
| Comp. Ratio [%]↑ | Hi-Map | 75.91 | 70.78 | 71.42 | 76.04 | 72.84 | 68.01 | 65.34 | 70.77 | 71.39 |
- Hi-Map は Replica データセットのシーケンス全体で GO-SLAM よりも高い SSIM と PSNR を達成します。
- Hi-Map により Depth L1 およびフレームごとの深度精度が向上し、幾何学的再構成が改善されていることを示します。
- Hi-Map は、難易度の高い室内の垂直面を含む、より完全で滑らかな再構成を示します。
- 因子分解(低秩正則化)は、一般化を滑らかにし、テクスチャの乏しい領域でのアーチファクトを低減します。
- デュアルパスエンコーディングは、テクスチャがまばらな場合でも座標付加外観特徴を活用してジオメトリの一貫性を向上させます。
- Replica データで、Hi-Map は基準法と比較して外観と幾何推定の顕著な向上を示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。