Skip to main content
QUICK REVIEW

[论文解读] Pyramid Stereo Matching Network

Jia-Ren Chang, Yong‐Sheng Chen|arXiv (Cornell University)|Mar 23, 2018
Advanced Vision and Imaging参考文献 27被引用 64
一句话总结

PSMNet 引入空间金字塔池化和堆叠式沙漏型3D CNN,以形成并正则化成本体积,用于端到端的立体匹配,在 KITTI 数据集上实现了最先进的结果。

ABSTRACT

Recent work has shown that depth estimation from a stereo pair of images can be formulated as a supervised learning task to be resolved with convolutional neural networks (CNNs). However, current architectures rely on patch-based Siamese networks, lacking the means to exploit context information for finding correspondence in illposed regions. To tackle this problem, we propose PSMNet, a pyramid stereo matching network consisting of two main modules: spatial pyramid pooling and 3D CNN. The spatial pyramid pooling module takes advantage of the capacity of global context information by aggregating context in different scales and locations to form a cost volume. The 3D CNN learns to regularize cost volume using stacked multiple hourglass networks in conjunction with intermediate supervision. The proposed approach was evaluated on several benchmark datasets. Our method ranked first in the KITTI 2012 and 2015 leaderboards before March 18, 2018. The codes of PSMNet are available at: https://github.com/JiaRenChang/PSMNet.

研究动机与目标

  • 通过利用全局上下文信息推动在病态/难以辨别的立体区域中的鲁棒视差估计。
  • 开发一个端到端的 CNN 架构,在立体匹配中摒弃后处理。
  • 通过空间金字塔池实现多尺度上下文,以丰富特征表示。
  • 用堆叠式沙漏型3D CNN 及中间监督来正则化成本体积。

提出的方法

  • 使用两个权重共享的 CNN 流来从左图和右图提取特征。
  • 应用空间金字塔池化(SPP)模块以形成多尺度上下文特征。
  • 通过在视差上拼接左右特征来构造4D成本体积。
  • 用堆叠式沙漏型3D CNN 架构正则化成本体积,并通过回归计算视差。
  • 使用对视差的平滑L1损失进行训练,采用基于softmax的对视差的概率进行视差回归。

实验结果

研究问题

  • RQ1通过 SPP 引入多尺度全球上下文是否能改善在病态区域的立体匹配?
  • RQ2相比于基本的3D-CNN,堆叠式沙漏型3D CNN 是否能更好地正则化端到端立体的成本体积?
  • RQ3扩张卷积和金字塔池化层次对 KITTI 基准的影响?
  • RQ4在 KITTI 2012/2015 上,端到端立体匹配若不进行后处理,是否具备与最先进方法的竞争力?

主要发现

  • PSMNet在 KITTI 2012 和 KITTI 2015 的排行榜上在 2018 年 3 月 18 日之前达到最先进的结果。
  • SPP 与堆叠式沙漏型3D CNN 的联合使用显著提高视差精度,尤其在病态区域。
  • 在堆叠式沙漏结构中对多个输出采用更好的损失权重分配可带来更高的验证精度。
  • 在 Scene Flow 上进行 1)10+ 小时的训练方案,随后在 KITTI 上微调,表现出对真实世界数据的强泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。