QUICK REVIEW

[論文レビュー] PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network

Qingshan Xu, Wenbing Tao|arXiv (Cornell University)|Jul 15, 2020

Advanced Vision and Imaging参考文献 42被引用数 53

ひとこと要約

PVSNet は近傍ビューの画素ごとの可視性を学習し、マルチビュー・ステレオにおける寄与を加重します。 anti-noise 学習戦略を用いて、ETH3D high-res を含む複数データセットで最先端の結果を達成します。

ABSTRACT

Recently, learning-based multi-view stereo methods have achieved promising results. However, they all overlook the visibility difference among different views, which leads to an indiscriminate multi-view similarity definition and greatly limits their performance on datasets with strong viewpoint variations. In this paper, a Pixelwise Visibility-aware multi-view Stereo Network (PVSNet) is proposed for robust dense 3D reconstruction. We present a pixelwise visibility network to learn the visibility information for different neighboring images before computing the multi-view similarity, and then construct an adaptive weighted cost volume with the visibility information. Moreover, we present an anti-noise training strategy that introduces disturbing views during model training to make the pixelwise visibility network more distinguishable to unrelated views, which is different with the existing learning methods that only use two best neighboring views for training. To the best of our knowledge, PVSNet is the first deep learning framework that is able to capture the visibility information of different neighboring views. In this way, our method can be generalized well to different types of datasets, especially the ETH3D high-res benchmark with strong viewpoint variations. Extensive experiments show that PVSNet achieves the state-of-the-art performance on different datasets.

研究の動機と目的

強い視点変動の下で堅牢な密な3D再構成を動機づけるために、ビュー間での各ピクセルの可視性をモデリングします。
参照ビューに対して近傍画像の可視性マップを学習するピクセルごとの可視性ネットワークを導入します。
学習された可視性ウェイトを用いて二視点コストボリュームを統合し、堅牢な統一コストボリュームを形成します。
頑健性を高めるために、トレーニング時に有害なビューを露出させる anti-noise トレーニング戦略を提案します。
ETH3D high-res を含む複数の MVS ベンチマークで最先端の性能を示します。

提案手法

複数の深度仮説を用いたプラ―ン・スウィープにより、各近傍画像について2視点コストボリュームを構築します。
occlusion および視点幾何学効果を捉えるため、3D U-Net を用いて各2視点コストボリュームから2Dのピクセルごとの可視性マップを回帰します。
可視性マップを重みとして用い、すべての2視点コストを1つの加重コストボリュームに統合します（C_agg = sum V_i' * C_ref,i / sum V_i'）。
コストボリュームのフィルタリングと逆深度回帰を3D CNN ベースのパイプラインで行い、深度マップを得ます。
高解像度推定へは、前段の可視性を用いて薄い高解像度のコストボリュームを構築することで、反復的に深度を改良します。
anti-noise トレーニング戦略を導入し、トレーニング時に最悪の2ビューを含めて関係のないビューの識別を向上させます。

Figure 1: Depth map results using R-MVSNet [ 8 ] , CIDER [ 10 ] , Colmap [ 4 ] and Ours on ETH3D high-res multi-view benchmark [ 13 ] .

実験結果

リサーチクエスチョン

RQ1近傍ビュー間の画素単位の可視性情報を学習し、それを用いてMVSの深度推定を改善できるか。
RQ2可視性の明示的モデリングは、強い視点変化を持つデータセット（例：ETH3D high-res）における深度の集約をより堅牢にするか。
RQ3anti-noise トレーニング戦略は非信頼ビューへの感度を低減し、ビュー数が増えるほど性能を向上させるか。

主な発見

Method	Acc.	Comp.	Overall
Traditional Camp [41]	0.835	0.554	0.695
Furu [3]	0.613	0.941	0.777
Tola [42]	0.342	1.190	0.766
Gipuma [15]	0.283	0.873	0.578
MVSNet [5] LR	0.396	0.527	0.462
R-MVSNet [8]	0.383	0.452	0.417
CIDER [10]	0.417	0.437	0.427
MVSCRF [22]	0.371	0.426	0.398
Ours	0.408	0.393	0.4001
Point-MVSNet [9] HR	0.342	0.411	0.376
CasMVSNet [37]	0.325	0.385	0.355
CVP-MVSNet [36]	0.296	0.406	0.351
UCSNet [11]	0.330	0.372	0.351
Ours	0.337	0.315	0.326

PVSNet は隣接ビューの画素ごとの可視性マップを学習し、それを用いて二視点コストボリュームを加重集約し、関係のないビューからのノイズの影響を減らします。
有害なビューを含む AN（anti-noise）トレーニング戦略は、入力ビュー数が増えるにつれて頑健性と性能を著しく向上させます。
DTUデータセットでは、高解像度版の PVSNet が最先端の完全性と競争力のある精度および総合スコアを学習ベース手法の中で達成します。
可視性推定を伴う PVSNet は Tanks and Temples（Advanced データセットを含む）で結果を改善します。
ETH3D high-res ベンチマークでは、PVSNet は初の学習ベース手法として評価され、精度と完成度が競合する水準を達成し、低解像度入力の Colmap に匹敵します。
総じて、PVSNet は室内外のシーンや視点変化の異なるデータセットに対して強い一般化能力を示します。

Figure 2: (a) shows the overview of our proposed PVSNet. (b) shows the network architecture of the pixelwise visibility network, which corresponds to the red box of (a).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。