Skip to main content
QUICK REVIEW

[论文解读] Learning Deep Correspondence through Prior and Posterior Feature Constancy

Zhengfa Liang, Yiliu Feng|arXiv (Cornell University)|Dec 4, 2017
Advanced Vision and Imaging参考文献 24被引用 30
一句话总结

本文提出了一种统一的深度学习框架用于立体匹配,将特征提取、代价计算、聚合、视差估计和优化四个步骤整合到一个端到端的架构中。通过在基于贝叶斯推理的优化网络中利用先验和后验特征一致性,该方法在KITTI 2012和KITTI 2015基准测试中实现了最先进(SOTA)的精度,同时具备快速的推理速度。

ABSTRACT

Stereo matching algorithms usually consist of four steps, including matching cost calculation, matching cost aggregation, disparity calculation, and disparity refinement. Existing CNN-based methods only adopt CNN to solve parts of the four steps, or use different networks to deal with different steps, making them difficult to obtain the overall optimal solution. In this paper, we propose a network architecture to incorporate all steps of stereo matching. The network consists of three parts. The first part calculates the multi-scale shared features. The second part performs matching cost calculation, matching cost aggregation and disparity calculation to estimate the initial disparity using shared features. The initial disparity and the shared features are used to calculate the prior and posterior feature constancy. The initial disparity, the prior and posterior feature constancy are then fed to a sub-network to refine the initial disparity through a Bayesian inference process. The proposed method has been evaluated on the Scene Flow and KITTI datasets. It achieves the state-of-the-art performance on the KITTI 2012 and KITTI 2015 benchmarks while maintaining a very fast running time.

研究动机与目标

  • 为了解决现有基于CNN的立体匹配方法将各步骤分开处理所导致的次优解问题。
  • 将立体匹配的四个核心步骤——特征提取、代价计算、聚合和视差优化——统一为一个可端到端训练的神经网络。
  • 通过在优化过程中引入先验和后验特征一致性作为正则化信号,提升视差估计的准确性。
  • 在实现最先进性能的同时,保持较高的推理速度。

提出的方法

  • 网络首先使用共享主干编码器从立体图像对中提取多尺度共享特征。
  • 第二个模块基于共享特征计算匹配代价,跨尺度聚合代价,并预测初始视差图。
  • 利用初始视差和共享特征计算先验与后验特征一致性,以建模不同视角之间的特征一致性。
  • 优化子网络将初始视差和特征一致性信号作为输入,通过贝叶斯推理对视差图进行优化。
  • 整个架构采用端到端方式进行训练,优化阶段由基于特征一致性的概率约束引导。
  • 通过学习到的先验和后验特征分布,同时利用空间一致性和外观一致性。

实验结果

研究问题

  • RQ1统一的深度神经网络架构能否有效将立体匹配的四个步骤整合为一个端到端的流水线?
  • RQ2如何有效建模并利用先验与后验特征一致性以提升视差优化性能?
  • RQ3在特征一致性信号上应用贝叶斯推理是否能带来更准确且鲁棒的视差预测?
  • RQ4所提出的方法是否在保持实时推理速度的同时实现了最先进性能?

主要发现

  • 所提方法在KITTI 2012基准测试中实现了最先进性能,精度优于以往方法。
  • 在KITTI 2015基准测试中,该方法在所有对比方法中表现最佳,展现出强大的泛化能力。
  • 网络保持了极快的运行速度,尽管结构复杂,仍适用于实时应用。
  • 先验与后验特征一致性的整合显著提升了视差优化效果,尤其在无纹理或重复纹理区域表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。