[论文解读] Learning for Disparity Estimation through Feature Constancy
本文提出了一种统一的深度学习框架用于立体匹配,将特征提取、代价计算、视差估计和优化四个步骤整合到一个端到端的神经网络中。通过引入特征一致性(feature constancy),该方法结合了特征相关性和重建误差,实现了有效的视差优化,在 KITTI 2012 和 KITTI 2015 上均取得了最先进性能,且在单张 GPU 上推理时间仅为 0.12 秒。
Stereo matching algorithms usually consist of four steps, including matching cost calculation, matching cost aggregation, disparity calculation, and disparity refinement. Existing CNN-based methods only adopt CNN to solve parts of the four steps, or use different networks to deal with different steps, making them difficult to obtain the overall optimal solution. In this paper, we propose a network architecture to incorporate all steps of stereo matching. The network consists of three parts. The first part calculates the multi-scale shared features. The second part performs matching cost calculation, matching cost aggregation and disparity calculation to estimate the initial disparity using shared features. The initial disparity and the shared features are used to calculate the feature constancy that measures correctness of the correspondence between two input images. The initial disparity and the feature constancy are then fed to a sub-network to refine the initial disparity. The proposed method has been evaluated on the Scene Flow and KITTI datasets. It achieves the state-of-the-art performance on the KITTI 2012 and KITTI 2015 benchmarks while maintaining a very fast running time.
研究动机与目标
- 解决现有基于 CNN 的立体匹配方法将代价计算、聚合、视差计算和优化视为独立阶段所导致的性能次优和效率低下问题。
- 提升视差估计的准确性,特别是在无真实标签的遮挡区域和具有挑战性的区域(如天空或远处物体)中。
- 通过引入结合视差优化的统一网络架构,实现立体匹配所有步骤的联合优化。
- 提升在未见数据上的泛化能力和鲁棒性,特别是在缺乏真实标签监督的区域。
- 在保持基准数据集上最先进性能的同时,维持高计算效率。
提出的方法
- 网络首先使用共享主干网络从立体图像对中提取多尺度共享特征。
- 一个视差估计网络(DES-net)利用从共享特征中提取的聚合匹配代价来计算初始视差。
- 特征一致性由两部分组成:(1) 在不同视差下计算的特征相关性,用于评估匹配质量;(2) 使用初始视差在特征空间中计算的重建误差,用于度量一致性。
- 一个优化子网络以初始视差和特征一致性作为输入,预测优化后的视差图。
- 整个网络采用端到端方式进行训练,实现视差估计与优化的联合优化。
- 优化过程同时利用相关性和重建误差来指导学习,从而提升优化的稳定性和性能。
实验结果
研究问题
- RQ1统一的深度学习框架能否联合优化立体匹配的四个步骤(特征提取、代价计算、视差估计和优化),从而实现更优性能?
- RQ2结合相关性和重建误差的特征一致性,在引导视差优化方面是否比启发式或独立的优化网络更有效?
- RQ3所提出的方法在缺乏真实标签的挑战性区域(如天空、遮挡区域)中是否具有良好的泛化能力?
- RQ4与先前最先进方法相比,特征一致性的引入是否在 KITTI 基准上提升了准确性和效率?
- RQ5该方法是否能在保持优异准确性的前提下,维持高推理速度,适用于 KITTI 2012 和 KITTI 2015 数据集?
主要发现
- 所提方法在 KITTI 2012 和 KITTI 2015 基准测试中均取得了最先进性能,在未进行微调的情况下,KITTI 2015 的 D1-all 错误率为 2.19%,KITTI 2012 为 3.62%。
- 采用两次优化迭代的 iResNet 模型将 KITTI 2015 的 D1-all 错误率降低至 2.19%,KITTI 2012 为 3.62%,优于所有对比方法,包括 CRL 和 DispNetC。
- 该方法在单张 Nvidia Titan X (Pascal) GPU 上实现了仅 0.12 秒/张的极快推理时间,表现出极高的效率。
- 从 KITTI 2015 到 KITTI 2012 的性能下降仅为 1.18 个百分点,显著低于 CRL(2.15)和 DispNetC(5.3),表明其具有强大的泛化能力。
- 定性结果表明,该方法生成的视差图更加平滑,并在天空和远处物体等困难区域更好地保留了细节,而其他方法在这些区域表现失败。
- 基于特征一致性的优化子网络持续提升了初始视差估计性能,使用 iResNet-i2 模型时,KITTI 2015 上的 EPE 从 3.25 降低至 2.44。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。