QUICK REVIEW

[論文レビュー] Visibility-aware Multi-view Stereo Network

Jingyang Zhang, Yao Yao|arXiv (Cornell University)|Aug 18, 2020

Advanced Vision and Imaging参考文献 31被引用数 52

ひとこと要約

Vis-MVSNetはマッチング不確実性を介してピクセル単位の可視性を明示的にモデル化・統合し、マルチビューStereoにおける遮蔽ピクセルの影響を低減し、特に強い遮蔽下で深度精度を向上させる。

ABSTRACT

Learning-based multi-view stereo (MVS) methods have demonstrated promising results. However, very few existing networks explicitly take the pixel-wise visibility into consideration, resulting in erroneous cost aggregation from occluded pixels. In this paper, we explicitly infer and integrate the pixel-wise occlusion information in the MVS network via the matching uncertainty estimation. The pair-wise uncertainty map is jointly inferred with the pair-wise depth map, which is further used as weighting guidance during the multi-view cost volume fusion. As such, the adverse influence of occluded pixels is suppressed in the cost fusion. The proposed framework Vis-MVSNet significantly improves depth accuracies in the scenes with severe occlusion. Extensive experiments are performed on DTU, BlendedMVS, and Tanks and Temples datasets to justify the effectiveness of the proposed framework.

研究の動機と目的

遮蔽によってマルチビューの手掛かりが乱されるときに正確な三次元再構成を動機づける。
深度とピクセル単位のマッチング不確実性を jointly 推定するエンドツーエンドのネットワークを提案する。
遮蔽の寄与を抑制するために不確実性主導の重み付けをマルチビューコストボリューム融合に組み込む。
優れた性能を得るために prior ステージの推定を中心としたコース・ツー・ファイン戦略と、Group-wise correlation のような実用的技術を採用する。

提案手法

各参照画像–ソース画像の対について、Group-wise correlation を用いてペア-wise コストボリュームを計算する。
3D CNN と soft-argmax を用いてペアから深度マップと深度方向の不確実性を回帰し、不確実性は深度分布のエントロピーから導出する。
ペア-wise の深度と不確実性を確率ボリュームに変換し、すべてのペア-wise 潜在ボリュームを exp(-uncertainty) を重みとする加重和で融合する。
融合ボリュームを正規化して soft-argmax を通じて最終的な深度マップを得る。
コース・ツー・ファイン方式を採用し、 prior の推定を中心とした段階的に狭くなる深度レンジを適用する。
Laplacian likelihood objective に関連した深度残差を用いて、不 supervision なしで深度と不確実性を共同訓練する。

実験結果

リサーチクエスチョン

RQ1外部の EM のような手順を使用せずに、ピクセル単位の可視性を直接学習ベースの MVS フレームワーク内で推定できるのか。
RQ2遮蔽が存在する場合に、明示的な不確実性推定は深度融合を改善するのか。
RQ3不確実性主導の融合が、遮蔽領域と非遮蔽領域の深度精度にどのような影響を与えるのか。
RQ4提案手法 Vis-MVSNet は、従来の方法と比較して標準的な MVS ベンチマーク（DTU, BlendedMVS, Tanks and Temples）でどのように機能するのか。

主な発見

手法	Tanks and Temples 平均 Fスコア	Francis	Horse	Lighthouse	M60	Panther	Playground	Train	Accuracy	比較	総合	DTU (mm) 平均
Vis-MVSNet	60.03	77.40	60.23	47.07	63.44	62.21	57.28	60.54	52.07	0.369	0.361	0.365

Vis-MVSNet は Tanks and Temples、DTU、BlendedMVS データセットで最先端または競争力のある結果を達成する。
不確実性ウェイティングを伴う遮蔽対応の融合は、特に深刻な遮蔽シーンで深度精度を改善する。
Two-step cost-volume regularization plus coarse-to-fine strategy は再構成品質を高める。
不確実性ベースの損失とエントロピー由来の不確実性により、可視性の明示的監督なしでエンドツーエンド訓練が可能となる。
アブレーションにより、明示的な視認性を考慮した融合が分散ベースおよび単純な平均/最大融合のベースラインを上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。