Skip to main content
QUICK REVIEW

[论文解读] Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation

Xiaokang Chen, Kwan-Yee Lin|arXiv (Cornell University)|Jul 17, 2020
Advanced Neural Network Applications参考文献 55被引用 51
一句话总结

本文提出一种双向跨模态编码器,使用 Separation-and-Aggregation (SA) 门控和 Bi-direction Multi-step Propagation (BMP),以鲁棒地融合 RGB 与嘈杂深度(HHA)信号用于 RGB-D 语义分割,在现有骨架上安装时在 NYU Depth V2 和 CityScapes 上获得了最先进的结果。

ABSTRACT

Depth information has proven to be a useful cue in the semantic segmentation of RGB-D images for providing a geometric counterpart to the RGB representation. Most existing works simply assume that depth measurements are accurate and well-aligned with the RGB pixels and models the problem as a cross-modal feature fusion to obtain better feature representations to achieve more accurate segmentation. This, however, may not lead to satisfactory results as actual depth data are generally noisy, which might worsen the accuracy as the networks go deeper. In this paper, we propose a unified and efficient Cross-modality Guided Encoder to not only effectively recalibrate RGB feature responses, but also to distill accurate depth information via multiple stages and aggregate the two recalibrated representations alternatively. The key of the proposed architecture is a novel Separation-and-Aggregation Gating operation that jointly filters and recalibrates both representations before cross-modality aggregation. Meanwhile, a Bi-direction Multi-step Propagation strategy is introduced, on the one hand, to help to propagate and fuse information between the two modalities, and on the other hand, to preserve their specificity along the long-term propagation process. Besides, our proposed encoder can be easily injected into the previous encoder-decoder structures to boost their performance on RGB-D semantic segmentation. Our model outperforms state-of-the-arts consistently on both in-door and out-door challenging datasets. Code of this work is available at https://charlescxk.github.io/

研究动机与目标

  • 在野外场景中动机针对在嘈杂且不对齐的深度数据下的鲁棒 RGB-D 融合。
  • 开发一个跨模态引导的编码器,在融合前重新标定每个模态。
  • 提出 Separation-and-Aggregation 阈 (SA-Gate) 以过滤深度噪声并自适应融合模态。
  • 引入 Bi-direction Multi-step Propagation (BMP) 在编码过程中保持模态特异性。
  • 证明与现有 RGB 分割解码器的即插即用兼容性以提升性能。

提出的方法

  • SA-Gate 由 Feature Separation (FS) 以跨模态注意力过滤嘈杂深度特征,以及 Feature Aggregation (FA) 以带有空间门的方式融合 RGB 与深度。
  • FS 通过对拼接后的 RGB 与深度进行全局池化,产生跨模态注意力向量,然后通过通道级缩放过滤深度并将 RGB_in 重新校正为 RGB_rec = HHA_filtered + RGB_in。
  • FA 从重新校正的 RGB 与 HHA 生成空间门,得到对 RGB_in 与 HHA_in 的加权融合 M,A_rgb 与 A_hha 作为软最大化归一化的空间权重。
  • 最终的残差式融合产生 RGB_out 与 HHA_out,并在编码器中前向传递(双向传播)。
  • BMP 将融合特征跨层传播,在保持模态特异性的同时细化编码器中的表征。

实验结果

研究问题

  • RQ1一个显式分离再聚合特征的跨模态门是否能在存在深度噪声的情况下改善 RGB-D 语义分割?
  • RQ2双向特征传播是否有助于在实现有效跨模态融合的同时保持模态特异信息?
  • RQ3所提出的编码器在现有基于 RGB 的分割骨架上插入后,在室内和室外数据集上的性能提升有多大?
  • RQ4与 RGB-D 基线以及现有 RGB-D 方法相比,SA-Gate 与 BMP 对准确性和效率的影响如何?

主要发现

  • 在 NYU Depth V2 上,所提出的方法达到 mIoU 52.4 和 Pixel Acc 77.9,超过 RGB-D 基线(46.7 mIoU)。
  • 该方法在各解码器上均表现出显著提升,展示了其即插即用能力。
  • CityScapes 实验显示强劲提升,在深度噪声存在时实现了验证集的最先进结果,并且在测试端具备竞争力,相较于 RGB 基线有显著提升。
  • SA-Gate + BMP 的组合效果大于单独任一组件,体现了它们在跨模态特征传播中的互补作用。
  • 与 RGB-D 基线相比模型在内存和计算方面更为高效,同时提供更高的准确性(例如表 1 报告的 FLOPs 低于 RGB-D 基线但 mIoU 更高)。
  • 定性可视化显示 SA-Gate 学会模态特异的关注(RGB 用于细节;HHA 用于光照鲁棒区域),提升边界和纹理处理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。