QUICK REVIEW

[论文解读] MVSNet: Depth Inference for Unstructured Multi-view Stereo

Yao Yao, Zixin Luo|arXiv (Cornell University)|Apr 7, 2018

Advanced Vision and Imaging参考文献 29被引用 61

一句话总结

MVSNet 提出了一种端到端的深度学习方法，用于从非结构化的多视图图像中推断逐视图深度图，使用可微分单应性进行代价体积构建、3D CNN 正则化以及深度细化。

ABSTRACT

We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.

研究动机与目标

在带有非结构化视图的多视图立体中推动改进的深度图推断。
提出一种端到端网络，利用可微分单应性从2D特征构建3D代价体积。
通过方差基代价度量实现对任意N视输入的灵活处理。
回归并对逐视深度图进行细化，使大规模重建更高效。

提出的方法

使用共享的8层CNN提取多尺度2D图像特征。
在参考相机视锥上使用可微分单应性扭曲构建3D代价体积。
使用方差基代价度量聚合N视图体积以形成最终代价体积。
用多尺度3D CNN对代价体积进行正则化，并沿深度维度通过softmax生成概率体。
将初始深度计算为对深度假设的可微分soft argmin。
利用参考图像的引导网络对初始深度进行细化，生成最终深度图。
训练时在有效地面真实像素处，将初始深度和细化后深度图的误差结合起来作为损失。

实验结果

研究问题

RQ1是否能够在可微分投影机制下，将非结构化的多视输入有效整合到逐视深度图推断框架中？
RQ2与基于均值的方法相比，基于方差的多视图代价度量是否能提高深度估计的准确性和鲁棒性？
RQ3利用参考图像进行逐视深度图细化对边界准确性和整体深度质量有何影响？
RQ4在不进行微调的情况下，该方法从室内DTU数据到室外Tanks and Temples数据的泛化能力如何？

主要发现

Method	Mean Distance (mm) Acc.	Mean Distance (mm) Comp.	Mean Distance (mm) overall	Percentage (< 1mm) Acc.	Percentage (< 1mm) Comp.	Percentage (< 1mm) f-score	Percentage (< 2mm) Acc.	Percentage (< 2mm) Comp.	Percentage (< 2mm) f-score
Gipuma [ 8 ]	0.283	0.873	0.578	94.65	59.93	70.64	96.42	63.81	74.16
SurfaceNet [ 14 ]	0.450	1.04	0.745	83.8	63.38	69.95	87.15	67.99	74.4
MVSNet (Ours)	0.396	0.527	0.462	86.46	71.13	75.69	91.06	75.31	80.25

在DTU数据集上在完整性和整体质量方面优于前人方法，对无纹理和反射区域具有较强鲁棒性。
在Tanks and Temples数据集上无需微调即可达到最先进结果，显示出强泛化能力。
基于方差的代价度量比基于均值的方案更快收敛、验证性能更佳。
深度图细化提高了边界准确性和整体深度质量。
运行时间显著快于以往方法（大约每次扫描230秒，每视图约4.7秒）。
该模型支持不同数量的输入视图（N），当使用更多视图时仍能保持性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。