[论文解读] DPSNet: End-to-end Deep Plane Sweep Stereo
DPSNet 是一个端到端的卷积神经网络,它通过可微分的扭曲和上下文感知的代价聚合来建模平面扫描立体匹配,从而在来自非结构化多视图图像的密集深度重建方面达到最先进水平。
Multiview stereo aims to reconstruct scene depth from images acquired by a camera under arbitrary motion. Recent methods address this problem through deep learning, which can utilize semantic cues to deal with challenges such as textureless and reflective regions. In this paper, we present a convolutional neural network called DPSNet (Deep Plane Sweep Network) whose design is inspired by best practices of traditional geometry-based approaches for dense depth reconstruction. Rather than directly estimating depth and/or optical flow correspondence from image pairs as done in many previous deep learning methods, DPSNet takes a plane sweep approach that involves building a cost volume from deep features using the plane sweep algorithm, regularizing the cost volume via a context-aware cost aggregation, and regressing the dense depth map from the cost volume. The cost volume is constructed using a differentiable warping process that allows for end-to-end training of the network. Through the effective incorporation of conventional multiview stereo concepts within a deep learning framework, DPSNet achieves state-of-the-art reconstruction results on a variety of challenging datasets.
研究动机与目标
- 在考虑纹理缺失和反射区域的情况下,推动来自非结构化多视图图像的鲁棒密集深度重建。
- 开发一个端到端的神经网络,直接学习平面扫描立体匹配,而不是依赖后验的手工设计代价。
- 将可微分的平面扫描代价体构造与可学习的代价聚合整合以提升鲁棒性。
- 在多个挑战性数据集上展示最先进的深度重建,并分析消融实验。
- 展示端到端训练在将传统多视图立体匹配概念融入到 CNN 框架中时的收益。
提出的方法
- 使用共享的 CNN、空间金字塔池化及后续的 2D 卷积,从参考图像和目标图像提取多尺度特征,以产生 32 通道的特征图。
- 通过一个基于可微分扭曲模块(基于空间变换器)在 L 个深度平面上将目标视图特征扭曲到参考帧,构造平面扫描代价体,并将扭曲后的特征与参考特征拼接,形成 4D 体积。
- 使用带有扩张卷积和参考图像特征的上下文感知代价聚合网络,对代价体进行正则化,以细化每个代价切片。
- 通过将深度视为对 L 个平面的多标签分类来回归密集深度,对每个平面的代价值应用 softmax,并将深度计算为平面序号的加权和,乘以 L 和 d_min 的尺度。
- 在初始和精细化的代价体深度上使用 SmoothL1 损失进行训练,并以固定权重平衡贡献(初始成本深度的 λ=0.7)。
- 在测试阶段,通过对每个视图的代价体取平均来聚合多视图的代价,并端到端地产生最终的深度图。
实验结果
研究问题
- RQ1与非端到端的平面扫描方法相比,端到端学习的平面扫描几何是否能提升来自多视图图像的密集深度重建?
- RQ2上下文感知的代价聚合是否能提升深度精度,尤其是在纹理缺失或同质区域?
- RQ3输入视图数量如何影响深度质量,以及与计算量的权衡?
- RQ4在该框架中,特征拼接构造代价体是否能优于传统基于绝对差的代价?
- RQ5该方法在微调后是否能够适应不同的相机内外参数以及像 KITTI 这样的对准立体设置?
主要发现
- DPSNet 在多个标准多视图数据集上达到最先进的结果,在许多指标上优于 DeMoN、DeepMVS 和 COLMAP 基线。
- 它在同质区域和物体边界处有效恢复深度,受代价聚合模块的帮助,该模块对嘈杂的代价切片进行正则化。
- 用于代价体构造的特征拼接效果优于使用绝对差,能够学习到更丰富的三维场景信息。
- 一个带扩张卷积的上下文引导代价聚合网络显著提高深度精度,相对于未聚合的基线和堆叠时钟网络的替代方案。
- 逆深度平面采样以及更多输入视图(约七个左右)可以提升结果,但超过该数量后收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。