[論文レビュー] MVSFormer: Multi-View Stereo by Learning Robust Image Features and Temperature-based Depth
MVSFormer は事前学習済みの Vision Transformers を導入して MVS の特徴学習を強化し、深度推定を温度ベースで回帰と分類を統合し、DTU と Tanks-and-Temples データセットで最先端の結果を達成します。
Feature representation learning is the key recipe for learning-based Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS, vanilla Feature Pyramid Networks (FPNs) suffer from discouraged feature representations for reflection and texture-less areas, which limits the generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural Networks (CNNs) fail to tackle these issues. On the other hand, Vision Transformers (ViTs) have achieved prominent success in many 2D vision tasks. Thus we ask whether ViTs can facilitate feature learning in MVS? In this paper, we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can learn more reliable feature representations benefited by informative priors from ViT. The finetuned MVSFormer with hierarchical ViTs of efficient attention mechanisms can achieve prominent improvement based on FPNs. Besides, the alternative MVSFormer with frozen ViT weights is further proposed. This largely alleviates the training cost with competitive performance strengthened by the attention map from the self-distillation pre-training. MVSFormer can be generalized to various input resolutions with efficient multi-scale training strengthened by gradient accumulation. Moreover, we discuss the merits and drawbacks of classification and regression-based MVS methods, and further propose to unify them with a temperature-based strategy. MVSFormer achieves state-of-the-art performance on the DTU dataset. Particularly, MVSFormer ranks as Top-1 on both intermediate and advanced sets of the highly competitive Tanks-and-Temples leaderboard.
研究の動機と目的
- 反射やテクスチャの乏しい領域を扱える堅牢な特徴学習をMVSのために動機づける。
- MVSにおけるCNNベースの特徴抽出を補強するため、事前学習済みVision Transformers (ViTs) の利用を検討する。
- ViTベースの特徴を高解像度のMVS入力に適応させるためのマルチスケール訓練戦略を開発する。
- 回帰と分類に基づく深度推定を統一するための温度ベースの深度予測を提案する。
提案手法
- 事前学習済みViTs(Twins または DINO)をCNNベースのFPN特徴抽出器と統合し、MVSの補完的なマルチスケール特徴を取得する。
- ViT由来の特徴をFPNエンコーダの最も高いレベルに加算することで単純な特徴融合を行う。
- 異なる解像度でのViT訓練を可能にする勾配蓄積を伴う効率的なマルチスケール訓練戦略を実装する。
- 視点重み付き特徴相関と可視性ウェイトを伴う多段階コストボリュームを構築し、続いて3D U-Net正則化を適用する。
- 固定温度スケジュールでコストボリュームをソフトマックススケーリングして深度を推定する温度ベースの推論を導入し、分類と回帰の深度を統一する。
- 学習コストを削減するために凍結されたDINOバックボーンとGLUベースの fusion を備えた代替のMVSFormer-Pバリアントを提供する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みViTsは反射やテクスチャの乏しい領域への一般化を含め、MVSの特徴表現を改善できるだろうか?
- RQ2マルチスケールのViTベース訓練戦略は高解像度のMVS性能を堅牢に実現できるか?
- RQ3温度ベースの深度推論は分類と回帰のアプローチを統合し、深度精度と点群を改善できるか?
- RQ4DTUやTanks-and-Temples のような標準的なMVSベンチマークで、ViT強化型のMVSFormerは最先端手法とどのように比較されるか?
主な発見
| Method | Accuracy (mm) ↓ | Completeness (mm) ↓ | Overall (mm) ↓ |
|---|---|---|---|
| Gipuma | 0.283 | 0.873 | 0.578 |
| COLMAP | 0.400 | 0.664 | 0.532 |
| R-MVSNet | 0.385 | 0.459 | 0.422 |
| AA-RMVSNet | 0.376 | 0.339 | 0.357 |
| CasMVSNet | 0.325 | 0.385 | 0.355 |
| CDS-MVSNet | 0.352 | 0.280 | 0.316 |
| UniMVSNet | 0.352 | 0.278 | 0.315 |
| TransMVSNet | 0.321 | 0.289 | 0.305 |
| GBiNet* | 0.312 | 0.293 | 0.303 |
| MVSFormer | 0.327 | 0.251 | 0.289 |
| MVSFormer-P | 0.327 | 0.265 | 0.296 |
- Twins-small を用いた MVSFormer は CNN 事前学習バックボーンと比較して DTU で再構成誤差を大幅に低減する(例:Tab. 1 の総誤差が 0.312 から 0.289 へ)。
- MVSFormer は Tanks-and-Temples の intermediate および advanced セットの両方で Top-1 を獲得し、mean F-scores はそれぞれ 66.37(intermediate)、40.87(advanced)を記録。
- 分類ベースの信頼マップは外れ値や反射に対して堅牢性を提供し、推論時の温度ベース深度(D_tmp)は予測を滑らかにし点群を改善する。
- 温度ベースの深度推論は回帰と分類の深度を統一し、固定スケジュール {t^1,t^2,t^3,t^4} = {5, 2.5, 1.5, 1} により深度予測を純粋な REG または CLA より改善する。
- MVSFormer-P (凍結された DINO) は訓練コストを削減しつつ競争力のある結果を達成し、依然として高い性能を発揮。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。