[论文解读] GA-Net: Guided Aggregation Net for End-to-end Stereo Matching
GA-Net 引入可微分的半全局(SGA)和局部(LGA)引导聚合层,以替代立体匹配中的 3D 卷积,在实现更高效的同时获得最先进的精度。
In the stereo matching task, matching cost aggregation is crucial in both traditional methods and deep neural network models in order to accurately estimate disparities. We propose two novel neural net layers, aimed at capturing local and the whole-image cost dependencies respectively. The first is a semi-global aggregation layer which is a differentiable approximation of the semi-global matching, the second is the local guided aggregation layer which follows a traditional cost filtering strategy to refine thin structures. These two layers can be used to replace the widely used 3D convolutional layer which is computationally costly and memory-consuming as it has cubic computational/memory complexity. In the experiments, we show that nets with a two-layer guided aggregation block easily outperform the state-of-the-art GC-Net which has nineteen 3D convolutional layers. We also train a deep guided aggregation network (GA-Net) which gets better accuracies than state-of-the-art methods on both Scene Flow dataset and KITTI benchmarks.
研究动机与目标
- 推动在立体匹配中改进代价聚合,以处理遮挡、纹理匮乏区域和细小结构。
- 开发可微分、可学习的聚合层,取代代价高昂的 3D 卷积。
- 利用引导子网使聚合权重自适应于几何和上下文。
- 证明两层 GA 块能够超越使用更多 3D 卷积的更深基线。
- 建立具备实时能力的架构,在标准基准上实现具竞争力或更高的精度。
提出的方法
- 定义半全局引导聚合(SGA),在四个方向上对代价进行可微分聚合,权重可学习。
- 定义局部引导聚合(LGA),通过跨视差的局部引导滤波来细化细结构。
- 使用引导子网为 GA 层生成逐位置、逐视差的聚合权重。
- 将 GA 层与堆叠式 hourglass 特征提取器和视差回归整合,在训练中使用平滑 L1 损失及视差回归进行训练。
- 将 GA-Net 的变体与 GC-Net 和 PSMNet 进行比较,并在 Scene Flow 和 KITTI 数据集上进行评估。
实验结果
研究问题
- RQ1可微分的、引导聚合的层是否能够在不牺牲精度的前提下替代立体匹配中的 3D 卷积?
- RQ2半全局(SGA)和局部(LGA)引导聚合在遮挡、纹理匮乏和细结构区域是否提升性能?
- RQ3在 Scene Flow 和 KITTI 基准上,GA-Net 在精度和效率方面与最先进的方法相比如何?
- RQ4改变 GA 层数量对性能和速度有何影响?
主要发现
- GA-Net 具有两个 GA 层和两个 3D 卷积,性能超越 GC-Net(后者使用 19 个 3D 卷积)。
- GA-Net-15 在 Scene Flow 和 KITTI 基准上达到最先进的精度,FLOP 显著减少(GA 层成本约为 3D 卷积的 1/100)。
- SGA 提供可微分、可学习的半全局聚合,在处理遮挡和纹理匮乏区域方面比传统的 SGM 更有效。
- LGA 细化细结构和边缘,弥补下采样造成的细节损失。
- GA-Net-15 及其变体在精度、速度和参数数量之间相对于 GC-Net 和 PSMNet 提供了有利的权衡。
- 实时 GA-Net 变体在高端 GPU 上达到有竞争力的精度(例如 15-20 帧/秒),同时使用远少于传统的 3D 卷积。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。