QUICK REVIEW

[论文解读] End-to-End Learning of Geometry and Context for Deep Stereo Regression

Alex Kendall, Hayk Martirosyan|arXiv (Cornell University)|Mar 13, 2017

Advanced Vision and Imaging参考文献 35被引用 279

一句话总结

GC-Net 提出一个端到端深度立体回归框架，使用3-D卷积和一个软argmin构建可微成本体积，达到亚像素视差并在KITTI上实现最先进水平且无后处理。

ABSTRACT

We propose a novel deep learning architecture for regressing disparity from a rectified pair of stereo images. We leverage knowledge of the problem's geometry to form a cost volume using deep feature representations. We learn to incorporate contextual information using 3-D convolutions over this volume. Disparity values are regressed from the cost volume using a proposed differentiable soft argmin operation, which allows us to train our method end-to-end to sub-pixel accuracy without any additional post-processing or regularization. We evaluate our method on the Scene Flow and KITTI datasets and on KITTI we set a new state-of-the-art benchmark, while being significantly faster than competing approaches.

研究动机与目标

从整齐化的立体图像对到每像素视差的端到端映射。
通过可微成本体积引入立体几何信息。
通过在高度、宽度和视差维度上进行3-D卷积来利用语义上下文。
使用可微的 soft argmin 以亚像素精度回归视差。
在 Scene Flow 上展示性能并在 KITTI 数据集上进行基准测试。

提出的方法

使用带残差块的共享2-D CNN，从左图和右图学习单元特征表示。
通过在视差维度上拼接左-右单元特征来构建成本体积，同时保持特征维度。
应用3-D 编码器-解码器，通过聚合高度、宽度和视差上下文来正则化成本体积。
使用可微的 soft argmin 从正则化后的成本体积回归视差值。
使用L1视差损失端到端训练（可选回归对比分类损失）以实现亚像素精度。

实验结果

研究问题

RQ1端到端学习是否能在利用几何成本体积的同时，从整齐化的立体图像对有效回归每像素视差？
RQ2通过3-D卷积引入广泛上下文信息是否提高立体回归的准确性和鲁棒性？
RQ3可微的 soft argmin 是否在无需后处理的情况下提供准确的亚像素视差估计？
RQ4端到端训练是否使模型能够学习挑战性场景的语义与上下文线索？

主要发现

该模型在KITTI基准上达到最先进结果，超越先前方法。
3-D上下文正则化的成本体积在视差准确度上显著优于基于单元的方法。
回归损失相较硬/软分类损失在精度和亚像素结果上更好。
端到端的 GC-Net 超过需要后处理如 SGM 的基于补丁的深度立体方法。
软 argmin 使得可微分的亚像素视差回归成为可能，无需额外后处理。
定性结果显示网络利用更广泛的上下文信息来处理反射、无纹理和细薄结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。