[论文解读] PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network
PVSNet 学习相邻视图的像素级可见性,以加权多视图稠密重建中的贡献,采用抗噪训练策略,在包括 ETH3D high-res 在内的多个数据集上达到最先进的结果。
Recently, learning-based multi-view stereo methods have achieved promising results. However, they all overlook the visibility difference among different views, which leads to an indiscriminate multi-view similarity definition and greatly limits their performance on datasets with strong viewpoint variations. In this paper, a Pixelwise Visibility-aware multi-view Stereo Network (PVSNet) is proposed for robust dense 3D reconstruction. We present a pixelwise visibility network to learn the visibility information for different neighboring images before computing the multi-view similarity, and then construct an adaptive weighted cost volume with the visibility information. Moreover, we present an anti-noise training strategy that introduces disturbing views during model training to make the pixelwise visibility network more distinguishable to unrelated views, which is different with the existing learning methods that only use two best neighboring views for training. To the best of our knowledge, PVSNet is the first deep learning framework that is able to capture the visibility information of different neighboring views. In this way, our method can be generalized well to different types of datasets, especially the ETH3D high-res benchmark with strong viewpoint variations. Extensive experiments show that PVSNet achieves the state-of-the-art performance on different datasets.
研究动机与目标
- 通过建模跨视图的逐像素可见性,在强视点变化下实现鲁棒的密集三维重建。
- 引入一个像素级可见性网络,以学习相对于参考视图的相邻图像的可见性图。
- 使用学习得到的可见性权重将两视图成本体积聚合,形成鲁棒的统一成本体积。
- 提出一种抗噪训练策略,在训练中暴露出扰动视图以提高鲁棒性。
- 在多个 MVS 基准测试中展示最先进的性能,包括 ETH3D high-res。
提出的方法
- 为每个相邻图像通过多深度假设的平面扫描构建两视图成本体积。
- 使用 3D U-Net 从每个两视图成本体积回归一个二维逐像素可见性图,以捕捉遮挡和视图几何效应。
- 使用可见性图作为权重将所有两视图成本聚合为一个单一的加权成本体积(C_agg = sum V_i' * C_ref,i / sum V_i')。
- 通过基于 3D CNN 的流程对成本体积进行滤波和逆深度回归,以获得深度图。
- 通过在前一阶段的可见性基础上迭代细化,扩展到高分辨率估计,构建细的高分辨率成本体积。
- 通过在训练中包含最差的两视图来引入抗噪训练策略,以提高对不相关视图的辨识能力。
实验结果
研究问题
- RQ1是否可以学习并利用相邻视图的逐像素可见性信息来提高 MVS 深度估计?
- RQ2在存在较强视点变化的数据集(如 ETH3D high-res)中,是否通过显式建模可见性可实现更鲁棒的深度聚合?
- RQ3抗噪训练策略是否能降低对非可信视图的敏感性,并在添加更多视图时提升性能?
主要发现
| 方法 | 准确度 | 完整度 | 总体 |
|---|---|---|---|
| Traditional Camp [41] | 0.835 | 0.554 | 0.695 |
| Furu [3] | 0.613 | 0.941 | 0.777 |
| Tola [42] | 0.342 | 1.190 | 0.766 |
| Gipuma [15] | 0.283 | 0.873 | 0.578 |
| MVSNet [5] LR | 0.396 | 0.527 | 0.462 |
| R-MVSNet [8] | 0.383 | 0.452 | 0.417 |
| CIDER [10] | 0.417 | 0.437 | 0.427 |
| MVSCRF [22] | 0.371 | 0.426 | 0.398 |
| 本方法 | 0.408 | 0.393 | 0.4001 |
| Point-MVSNet [9] HR | 0.342 | 0.411 | 0.376 |
| CasMVSNet [37] | 0.325 | 0.385 | 0.355 |
| CVP-MVSNet [36] | 0.296 | 0.406 | 0.351 |
| UCSNet [11] | 0.330 | 0.372 | 0.351 |
| 本方法 | 0.337 | 0.315 | 0.326 |
- PVSNet 学习相邻视图的逐像素可见性图,并利用它们对两视图成本体积进行加权聚合,减少来自无关视图的噪声影响。
- 包括扰动视图的抗噪训练策略(AN)显著提高鲁棒性和性能,随着输入视图数量的增加尤为明显。
- 在 DTU 数据集,PVSNet 的高分辨率版本达到最先进的完备性,并在学习型方法中实现具有竞争性的精度与综合得分。
- 带有可见性估计的 PVSNet 在 Tanks and Temples 数据集上提升了结果,包括在 Viewpoint 变化更强的 Advanced 数据集上也有改进。
- 在 ETH3D high-res 基准上,PVSNet 是首个被评估的学习型方法,达到具有竞争力的准确度与完备性,且与低分辨率输入的 Colmap 相当。
- 总体而言,PVSNet 在室内/室外场景以及具有不同视点变化的数据集上表现出较强的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。