Skip to main content
QUICK REVIEW

[论文解读] Accurate Optical Flow via Direct Cost Volume Processing

Xu Jia, René Ranftl|arXiv (Cornell University)|Apr 24, 2017
Advanced Vision and Imaging参考文献 11被引用 31
一句话总结

本文提出了一种直接的光流方法,通过学习的特征嵌入和改进的半全局匹配(SGM)算法,构建并处理完整的四维代价体积。通过利用代价体积的规则性,该方法在 Sintel 和 KITTI 2015 基准测试中实现了最先进(SOTA)的精度,同时保持了具有竞争力的推理速度,显著优于以往的通用方法。

ABSTRACT

We present an optical flow estimation approach that operates on the full four-dimensional cost volume. This direct approach shares the structural benefits of leading stereo matching pipelines, which are known to yield high accuracy. To this day, such approaches have been considered impractical due to the size of the cost volume. We show that the full four-dimensional cost volume can be constructed in a fraction of a second due to its regularity. We then exploit this regularity further by adapting semi-global matching to the four-dimensional setting. This yields a pipeline that achieves significantly higher accuracy than state-of-the-art optical flow methods while being faster than most. Our approach outperforms all published general-purpose optical flow methods on both Sintel and KITTI 2015 benchmarks.

研究动机与目标

  • 为解决在大位移、无纹理区域和运动模糊等挑战下实现高精度光流估计这一长期难题。
  • 弥合立体匹配与光流之间的差距,将已在立体匹配中证明有效的代价体积处理方法应用于光流任务,尽管其计算开销较大。
  • 证明通过学习的特征嵌入和正则化优化,完整 4D 代价体积处理在计算上是可行且高效的。
  • 在不依赖领域特定监督或大型神经网络的前提下,实现在标准基准测试中的最先进性能。

提出的方法

  • 该方法使用一个参数量紧凑的卷积神经网络(112K 参数)来学习特征嵌入,从而实现图像块之间基于内积的高效匹配。
  • 由于搜索空间的规则结构以及使用了学习特征,能够快速构建完整的四维代价体积(耗时少于 300ms)。
  • 将半全局匹配(SGM)算法适配到 4D 设置中,以增强空间一致性并去除异常值,充分利用了规则网格结构带来的大规模并行性。
  • 后处理包括基于单应性的填充方法,用于优化光流场,尤其在具有平面运动的刚性场景中效果显著。
  • 该流程采用两阶段方法:首先通过学习特征构建代价体积,随后进行 SGM 优化和单应性正则化。
  • 通过使用快速推理(80ms 代价体积)和高效的插值方法(EpicFlow)进行最终光流优化,实现了运行时的优化。

实验结果

研究问题

  • RQ1完整的四维代价体积是否能够被足够高效地构建,以支持实时光流估计?
  • RQ2使用 SGM 等全局优化技术直接处理 4D 代价体积,是否能带来比现有光流方法更高的精度?
  • RQ3是否可以使用紧凑的特征嵌入替代传统匹配函数(如 NCC),同时保持或提升精度?
  • RQ4基于单应性的后处理在刚性平面场景中能将光流精度提升多少?
  • RQ5是否能够设计一种基于代价体积的光流方法,在不依赖领域特定监督的前提下,同时超越端到端深度学习模型在精度和速度上的表现?

主要发现

  • 在 Sintel 基准测试中,该方法实现了 5.44 的平均端到端像素误差(AEPE),优于所有已发表的通用光流方法。
  • 在 KITTI 2015 基准测试中,该方法相较当时最佳的先前工作('Patch-Batch')将 Fl-all 错误降低了 29.5%。
  • 代价体积构建仅耗时 80ms(快速模式)和 260ms(精确模式),证明了 4D 代价体积处理在计算上的可行性。
  • 即使仅使用 10 维的特征嵌入,也能取得优异性能(Sintel 上 AEPE 为 5.71),表明高精度并不依赖于高维特征。
  • 引入基于单应性的后处理在 KITTI 上显著提升了精度(遮挡错误降低 15.09%),但在 Sintel 上影响较小,反映出两类场景在刚性程度上的差异。
  • 该方法比 Full Flow [7] 快一个数量级以上,且快于大多数避免构建代价体积的方法,同时精度更高。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。