Skip to main content
QUICK REVIEW

[论文解读] RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation

Liuyuan Deng, Ming Yang|arXiv (Cornell University)|Jun 29, 2019
Advanced Neural Network Applications参考文献 42被引用 63
一句话总结

RFBNet 引入自底向上的交互式融合与残差融合块,以融合 RGB 与深度流进行 RGB-D 语义分割,在 ScanNet 与 Cityscapes 基准上达到最先进的结果。

ABSTRACT

RGB-D semantic segmentation methods conventionally use two independent encoders to extract features from the RGB and depth data. However, there lacks an effective fusion mechanism to bridge the encoders, for the purpose of fully exploiting the complementary information from multiple modalities. This paper proposes a novel bottom-up interactive fusion structure to model the interdependencies between the encoders. The structure introduces an interaction stream to interconnect the encoders. The interaction stream not only progressively aggregates modality-specific features from the encoders but also computes complementary features for them. To instantiate this structure, the paper proposes a residual fusion block (RFB) to formulate the interdependences of the encoders. The RFB consists of two residual units and one fusion unit with gate mechanism. It learns complementary features for the modality-specific encoders and extracts modality-specific features as well as cross-modal features. Based on the RFB, the paper presents the deep multimodal networks for RGB-D semantic segmentation called RFBNet. The experiments on two datasets demonstrate the effectiveness of modeling the interdependencies and that the RFBNet achieved state-of-the-art performance.

研究动机与目标

  • 通过有效利用 RGB 与深度编码器之间的相互依赖性,推动鲁棒的 RGB-D 语义分割。
  • 提出一个带有残差融合块的自底向上交互融合结构,以实现跨模态特征学习。
  • 通过缩小深度流的计算量来降低计算负担,同时保持性能。
  • 在室内数据集(ScanNet)和室外数据集(Cityscapes)上展示最先进的性能。

提出的方法

  • 引入三流架构:RGB 流、深度流和交互流。
  • 提出残差融合块(RFB),由两个模态特定的残差单元和一个门控融合单元组成,以学习互补的跨模态特征。
  • 使用自底向上的交互机制在较高层融合模态,GFU 通过四门机制对跨模态信息进行门控。
  • 缩小深度流以节省计算,同时使深度特征与 RGB 特征对齐以便融合。
  • 将 RFBs 集成到基线框架(SSMA)用于 RGB-D 融合,并在 ScanNet 和 Cityscapes 上评估。

实验结果

研究问题

  • RQ1显式自底向上的交互式融合是否比传统的早期、晚期或多层融合方案更有效提升 RGB-D 语义分割?
  • RQ2残差融合块是否能有效建模 RGB 与深度编码器之间的相互依赖性,从而提升分割精度?
  • RQ3降低深度流分辨率对总体性能和效率有何影响?
  • RQ4与最先进方法相比,RFBNet 在室内和室外的 RGB-D 数据集上表现如何?

主要发现

  • RFBNet 在 ScanNet 上持续优于 SSMA 和 FuseNet 等基线,达到 59.2% mIoU。
  • 在 Cityscapes 上,使用 ERFNetEnc 的 RFBNet 在测试集达到 69.7% mIoU,使用 AdapNet++ 的在测试集达到 74.8% mIoU(多模态)。
  • 消融实验显示门控带来 0.4% 的效率提升,通过 RFB 提供互补特征(R 选项)再带来额外的 0.9% 提升,超越仅仅增加干线的做法。
  • 缩小深度输入可将基于深度的计算量降低约 75%,在与交互式融合结合时效果温和或正向。
  • RFB 结构使编码器能够互相交换信息并生成跨模态特征,同时保留模态特定的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。