[论文解读] End-to-End Learning of Geometry and Context for Deep Stereo Regression
GC-Net 提出一个端到端深度立体回归框架,使用3-D卷积和一个软argmin构建可微成本体积,达到亚像素视差并在KITTI上实现最先进水平且无后处理。
We propose a novel deep learning architecture for regressing disparity from a rectified pair of stereo images. We leverage knowledge of the problem's geometry to form a cost volume using deep feature representations. We learn to incorporate contextual information using 3-D convolutions over this volume. Disparity values are regressed from the cost volume using a proposed differentiable soft argmin operation, which allows us to train our method end-to-end to sub-pixel accuracy without any additional post-processing or regularization. We evaluate our method on the Scene Flow and KITTI datasets and on KITTI we set a new state-of-the-art benchmark, while being significantly faster than competing approaches.
研究动机与目标
- 从整齐化的立体图像对到每像素视差的端到端映射。
- 通过可微成本体积引入立体几何信息。
- 通过在高度、宽度和视差维度上进行3-D卷积来利用语义上下文。
- 使用可微的 soft argmin 以亚像素精度回归视差。
- 在 Scene Flow 上展示性能并在 KITTI 数据集上进行基准测试。
提出的方法
- 使用带残差块的共享2-D CNN,从左图和右图学习单元特征表示。
- 通过在视差维度上拼接左-右单元特征来构建成本体积,同时保持特征维度。
- 应用3-D 编码器-解码器,通过聚合高度、宽度和视差上下文来正则化成本体积。
- 使用可微的 soft argmin 从正则化后的成本体积回归视差值。
- 使用L1视差损失端到端训练(可选回归对比分类损失)以实现亚像素精度。
实验结果
研究问题
- RQ1端到端学习是否能在利用几何成本体积的同时,从整齐化的立体图像对有效回归每像素视差?
- RQ2通过3-D卷积引入广泛上下文信息是否提高立体回归的准确性和鲁棒性?
- RQ3可微的 soft argmin 是否在无需后处理的情况下提供准确的亚像素视差估计?
- RQ4端到端训练是否使模型能够学习挑战性场景的语义与上下文线索?
主要发现
- 该模型在KITTI基准上达到最先进结果,超越先前方法。
- 3-D上下文正则化的成本体积在视差准确度上显著优于基于单元的方法。
- 回归损失相较硬/软分类损失在精度和亚像素结果上更好。
- 端到端的 GC-Net 超过需要后处理如 SGM 的基于补丁的深度立体方法。
- 软 argmin 使得可微分的亚像素视差回归成为可能,无需额外后处理。
- 定性结果显示网络利用更广泛的上下文信息来处理反射、无纹理和细薄结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。