Skip to main content
QUICK REVIEW

[论文解读] Siamese Network for RGB-D Salient Object Detection and Beyond

Keren Fu, Deng-Ping Fan|arXiv (Cornell University)|Aug 26, 2020
Visual Attention and Saliency Detection参考文献 154被引用 25
一句话总结

本文提出 JL-DCF,一种基于孪生网络的 RGB-D 显著性物体检测框架,通过共享主干网络联合学习 RGB 和深度模态的特征,实现有效的跨模态特征迁移。该方法在七个基准数据集上将平均 F-measure 提升约 2.0%,达到当前最优性能,并在 RGB-T 和视频 SOD 任务中展现出良好的泛化能力。

ABSTRACT

Existing RGB-D salient object detection (SOD) models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately designed training process. Inspired by the observation that RGB and depth modalities actually present certain commonality in distinguishing salient objects, a novel joint learning and densely cooperative fusion (JL-DCF) architecture is designed to learn from both RGB and depth inputs through a shared network backbone, known as the Siamese architecture. In this paper, we propose two effective components: joint learning (JL), and densely cooperative fusion (DCF). The JL module provides robust saliency feature learning by exploiting cross-modal commonality via a Siamese network, while the DCF module is introduced for complementary feature discovery. Comprehensive experiments using five popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the state-of-the-art models by an average of ~2.0% (max F-measure) across seven challenging datasets. In addition, we show that JL-DCF is readily applicable to other related multi-modal detection tasks, including RGB-T (thermal infrared) SOD and video SOD, achieving comparable or even better performance against state-of-the-art methods. We also link JL-DCF to the RGB-D semantic segmentation field, showing its capability of outperforming several semantic segmentation models on the task of RGB-D SOD. These facts further confirm that the proposed framework could offer a potential solution for various applications and provide more insight into the cross-modal complementarity task.

研究动机与目标

  • 解决现有 RGB-D SOD 模型将 RGB 和深度作为独立输入并使用独立网络处理所导致的性能受限问题。
  • 克服由于稀疏且高质量的深度数据导致的特征提取与融合挑战,以及对复杂训练过程的过度依赖。
  • 利用 RGB 与深度之间的跨模态共性,通过孪生网络架构实现鲁棒的共享特征学习。
  • 构建一个统一框架,可扩展应用于 RGB-D SOD 之外的其他多模态任务,如 RGB-T 和视频 SOD。
  • 探索 RGB-D SOD 与语义分割之间的可迁移性,证明 JL-DCF 在适配后优于现有 SOTA 分割模型。

提出的方法

  • 提出一种联合学习(JL)模块,采用具有共享主干的孪生网络,同时从 RGB 和深度输入中提取分层特征。
  • 引入一种密集协作融合(DCF)模块,通过在多尺度上聚合模态间特征,实现互补特征学习。
  • 采用中间融合策略,在独立提取特征后进行融合,避免早期或晚期融合的局限性。
  • 利用 RGB 与深度在显著性线索(如前景-背景对比、轮廓闭合、边界连通性)上的固有相似性,实现跨模态特征迁移。
  • 通过复用共享主干和融合机制,将框架适配至其他任务,包括 RGB-T SOD 和视频 SOD。
  • 通过将分类头替换为显著性预测头,将语义分割模型(如 PSPNet、DANet、SA-Gate)迁移至 RGB-D SOD 任务,以实现公平比较。

实验结果

研究问题

  • RQ1孪生网络能否有效学习 RGB 与深度之间用于显著性物体检测的共享跨模态表征?
  • RQ2与独立的模态专用网络相比,采用共享主干的联合学习是否能提升特征的鲁棒性与泛化能力?
  • RQ3密集协作融合是否能有效利用 RGB 与深度的互补特征以提升检测精度?
  • RQ4JL-DCF 框架在 RGB-T SOD 和视频 SOD 等其他多模态任务中的泛化能力如何?
  • RQ5当适配至 RGB-D SOD 任务时,SOTA 语义分割模型与所提框架之间是否存在显著的性能差距?

主要发现

  • 与现有 SOTA 模型相比,JL-DCF 在七个基准数据集上的平均 F-measure 提升约 2.0%。
  • 在五个代表性 RGB-D SOD 数据集上,该框架优于所有迁移的 SOTA 语义分割模型,包括超越 SA-Gate 和 DANet 等模型。
  • SGNet 在适配至 RGB-D SOD 时性能显著下降,可能因其依赖深度作为引导信号,而该信号在显著性任务中可靠性较低。
  • 该方法在 RGB-T SOD 和视频 SOD 任务中具有良好的泛化能力,性能与专用 SOTA 方法相当或更优。
  • 消融实验验证了联合学习与密集协作融合组件在提升特征表征与检测精度方面的有效性。
  • 结果表明,通过共享孪生学习可有效利用显著性线索中的跨模态互补性(如轮廓闭合、边界连通性)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。