[論文レビュー] GenS: Generalizable Neural Surface Reconstruction from Multi-View Images
GenS は、未知のシーンに対して高速推論または迅速な微調整を実現する、一般化可能なエンドツーエンドのニューラル表面再構成モデルを提案します。一般化されたマルチスケールボリューム、マルチスケール特徴量計量整合性、およびビューコントラスト損失を用いて、未見のシーンにわたる高品質な表面再構成を達成します。
Combining the signed distance function (SDF) and differentiable volume rendering has emerged as a powerful paradigm for surface reconstruction from multi-view images without 3D supervision. However, current methods are impeded by requiring long-time per-scene optimizations and cannot generalize to new scenes. In this paper, we present GenS, an end-to-end generalizable neural surface reconstruction model. Unlike coordinate-based methods that train a separate network for each scene, we construct a generalized multi-scale volume to directly encode all scenes. Compared with existing solutions, our representation is more powerful, which can recover high-frequency details while maintaining global smoothness. Meanwhile, we introduce a multi-scale feature-metric consistency to impose the multi-view consistency in a more discriminative multi-scale feature space, which is robust to the failures of the photometric consistency. And the learnable feature can be self-enhanced to continuously improve the matching accuracy and mitigate aggregation ambiguity. Furthermore, we design a view contrast loss to force the model to be robust to those regions covered by few viewpoints through distilling the geometric prior from dense input to sparse input. Extensive experiments on popular benchmarks show that our model can generalize well to new scenes and outperform existing state-of-the-art methods even those employing ground-truth depth supervision. Code is available at https://github.com/prstrive/GenS.
研究の動機と目的
- エンドツーエンドの一般化可能な表面再構成を、シーンごとの最適化なしに動機づける。
- 複数のシーンを効率的にエンコードする一般化されたマルチスケールボリュームを開発する。
- 識別的なマルチスケール特徴空間を介して多視点の整合性を強制する。
- 密な入力 priors を蒸留するビューコントラスト機構で、 sparsely 視点の不足領域の再構成を改善する。
- DTU と BlendedMVS データセットで最先端の一般化を実証する。
提案手法
- 共有 FPN を跨ぐスケール間で抽出されたマルチビュー特徴から一般化されたマルチスケールボリュームを構築する。
- 連結されたマルチスケールボリュームと 3D 座標を入力として MLP を用いて SDF を予測する。
- ソースビューのカラーをビュー方向の差分と組み合わせて学習されたブレンディングによりカラーをレンダリングする。
- ジオメトリを強制するために、マルチスケール特徴空間で NCC を用いたマルチスケール特徴量計量整合性を課す。
- dense 入力から sparse 入力へ幾何 priors を蒸留するビューコントラスト損失を導入する。
- 色彩、マルチスケール特徴量計量整合性、ビューコントラスト、正則化項の組み合わせでエンドツーエンドで訓練する。必要に応じて表面近傍のボクセルを剪定してファインチューニングする。

実験結果
リサーチクエスチョン
- RQ1一般化されたマルチスケールボリュームは、エンドツーエンドのニューラル表面再構成のために複数のシーンを効果的にエンコードできるか。
- RQ2マルチスケール特徴量計量整合性は、一般化可能な設定において従来のフォトメトリック整合性より強い多視点制約を提供するか。
- RQ3ビューコントラスト損失は、密入力 priors を活用して、視点が限られた領域の再構成品質を改善するか。
- RQ4GenS は標準ベンチマークで sparse-input の一般化と dense-input per-scene 最適化設定の両方でどのように性能を発揮するか。
- RQ5提案された各成分(GMV、MFC、VCL)が再構成品質に与える影響はどの程度か。
主な発見
| 手法 | 24 | 37 | 40 | 55 | 63 | 65 | 69 | 83 | 97 | 105 | 106 | 110 | 114 | 118 | 122 | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| GenS | 1.45 | 2.77 | 1.69 | 0.97 | 1.54 | 1.90 | 1.03 | 1.49 | 1.36 | 0.97 | 1.07 | 0.97 | 0.62 | 1.14 | 1.16 | 1.34 |
- GenS は sparse-input 設定で DTU および BlendedMVS における最先端の一般化を達成し、いくつかの深度監督法を超えることができる。
- 一般化されたマルチスケールボリューム(GMV)は、グローバルな滑らかな構造と高周波のディテールを両立しつつ、メモリ効率が高い。
- マルチスケール特徴量計量整合性(MFC)は、フォトメトリックな手がかりを超えた識別的で自己強化的な視点整合性を提供する。
- ビューコントラスト損失(VCL)は、密な視点からの priors を sparse 入力再構成へ蒸留することで、視点が限られた領域の幾何を改善する。
- GenS は高速推論(約 minutes)的に競争力のある、またはわずかなファインチューニング後(約 20 分程度)でより良い結果を達成する。
- アブレーション実験により、各コンポーネント(MFC、GMV、VCL)が性能向上に寄与することが示される。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。