Skip to main content
QUICK REVIEW

[论文解读] Practical Deep Stereo (PDS): Toward applications-friendly deep stereo matching

Stepan Tulyakov, A. B. Ivanov|arXiv (Cornell University)|Jun 5, 2018
Advanced Vision and Imaging被引用 74
一句话总结

PDS 引入了一个内存高效的瓶颈匹配模块和一个子像素 MAP/交叉熵损失,使在全尺寸图像上训练成为可能,并实现对不同视差范围的灵活性,取得了较小内存占用下的最先进结果。

ABSTRACT

End-to-end deep-learning networks recently demonstrated extremely good perfor- mance for stereo matching. However, existing networks are difficult to use for practical applications since (1) they are memory-hungry and unable to process even modest-size images, (2) they have to be trained for a given disparity range. The Practical Deep Stereo (PDS) network that we propose addresses both issues: First, its architecture relies on novel bottleneck modules that drastically reduce the memory footprint in inference, and additional design choices allow to handle greater image size during training. This results in a model that leverages large image context to resolve matching ambiguities. Second, a novel sub-pixel cross- entropy loss combined with a MAP estimator make this network less sensitive to ambiguous matches, and applicable to any disparity range without re-training. We compare PDS to state-of-the-art methods published over the recent months, and demonstrate its superior performance on FlyingThings3D and KITTI sets.

研究动机与目标

  • 降低端到端深度立体网络的内存占用,以便支持更大图像上下文和实际部署。
  • 在测试阶段实现视差范围的灵活性,而无需重新训练。
  • 通过新颖的损失函数和推理策略提升子像素精度和收敛性。

提出的方法

  • 引入一个瓶颈匹配模块,将连接后的左、右描述子压缩为紧凑的匹配签名。
  • 使用一个hourglass正则化网络处理紧凑签名以生成代价体。
  • 在推理中采用子像素 MAP 估计器,以处理多峰后验并实现实时视差范围更改。
  • 提出带离散化Laplace目标的子像素交叉熵损失,以加速收敛并提高准确性。
  • 在全尺寸图像上训练,以利用大范围上下文信息。
  • 使用 Instance Normalization 进行归一化,以降低内存并支持全图像训练。

实验结果

研究问题

  • RQ1是否可以在不牺牲精度的情况下降低深度立体网络的内存占用?
  • RQ2在全尺寸图像上训练是否能提升上下文匹配性能?
  • RQ3在测试时改变视差范围而不重新训练,同时保持精度,是否可行?
  • RQ4子像素 MAP 推理和子像素交叉熵损失是否能提高对多峰后验的鲁棒性和收敛速度?

主要发现

  • 在 FlyingThings3D 上,PDS 达到最小的 3-pixels error (3PE) 和第二小的 MAE,在比较方法中名列前茅。
  • PDS 具备最小的内存占用和较少的参数数量,同时在不重新训练的前提下实现不同视差范围。
  • 在全尺寸图像上的训练在使用大图像上下文时尤其能提升性能。
  • 在推理阶段从 SoftArgmin 转变为子像素 MAP 可以降低多峰误差,并在扩展视差范围时保持性能。
  • 带有子像素 MAP 的子像素交叉熵在收敛速度和 3PE 上有提升,MAE 变化较小。
  • 在 KITTI 基准测试中,PDS 在 KITTI’15 排名第3,在 KITTI’12 排名第4。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。