QUICK REVIEW

[论文解读] JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection

Keren Fu, Deng-Ping Fan|arXiv (Cornell University)|Apr 18, 2020

Visual Attention and Saliency Detection参考文献 79被引用 29

一句话总结

本文提出 JL-DCF，一种用于 RGB-D 显著性目标检测的新型联合学习与密集协作融合框架。该框架利用共享的孪生网络，同时从 RGB 和深度输入中提取分层特征，随后通过协作融合机制挖掘跨模态互补性。该方法在六个基准数据集上实现了最先进性能，平均提升 D3Net 模型在 S-measure 指标上的表现 1.9%。

ABSTRACT

This paper proposes a novel joint learning and densely-cooperative fusion (JL-DCF) architecture for RGB-D salient object detection. Existing models usually treat RGB and depth as independent information and design separate networks for feature extraction from each. Such schemes can easily be constrained by a limited amount of training data or over-reliance on an elaborately-designed training process. In contrast, our JL-DCF learns from both RGB and depth inputs through a Siamese network. To this end, we propose two effective components: joint learning (JL), and densely-cooperative fusion (DCF). The JL module provides robust saliency feature learning, while the latter is introduced for complementary feature discovery. Comprehensive experiments on four popular metrics show that the designed framework yields a robust RGB-D saliency detector with good generalization. As a result, JL-DCF significantly advances the top-1 D3Net model by an average of ~1.9% (S-measure) across six challenging datasets, showing that the proposed framework offers a potential solution for real-world applications and could provide more insight into the cross-modality complementarity task. The code will be available at https://github.com/kerenfu/JLDCF/.

研究动机与目标

为解决现有 RGB-D 显著性模型将 RGB 与深度视为独立模态、并采用独立特征提取网络的问题。
通过使用共享孪生主干网络，联合训练 RGB 和深度输入，提升特征学习的鲁棒性与跨模态互补性。
设计一种有效的融合策略，实现模态特异性特征之间的密集、协作式交互，以增强显著性预测性能。
尽管高质量深度数据有限，仍能在多样化的现实世界 RGB-D 数据集中展现优越的泛化能力与性能。
提供一种灵活且可泛化的框架，推动计算机视觉中的多模态学习发展。

提出的方法

该框架采用具有共享主干的孪生网络，同时从 RGB 和深度输入中提取深层分层特征，实现联合特征学习。
联合学习（JL）模块通过共享权重和训练期间的跨模态一致性，确保特征表示的鲁棒性。
设计了密集协作融合（DCF）模块，实现在多层级上跨模态的连续、双向特征交互，增强互补信息的整合。
融合机制采用可学习注意力与拼接操作，动态加权并融合来自 RGB 和深度流的特征。
整个网络采用端到端可训练方式，损失函数结合二元交叉熵与 Dice 损失，用于显著性图的监督。
在六个标准 RGB-D 数据集上使用标准指标（包括 S-measure、F-measure、E-measure 和 M-measure）对架构进行了评估。

实验结果

研究问题

RQ1尽管存在模态差异，共享的孪生网络能否有效学习来自 RGB 和深度模态的显著性相关特征？
RQ2与使用独立网络分别学习相比，从 RGB 和深度输入中进行联合特征学习是否能带来更好的泛化能力与性能？
RQ3密集协作融合策略能否有效挖掘跨模态互补性，从而在显著性检测中超越早期或晚期融合方法？
RQ4所提出的 JL-DCF 框架在多样化的真实世界 RGB-D 数据集上与最先进模型相比表现如何？
RQ5在收敛稳定性与最终性能方面，联合学习与独立学习各自的贡献是什么？

主要发现

JL-DCF 在六个基准数据集上相较先前最先进模型 D3Net，平均提升 S-measure 1.9%。
联合学习策略显著改善了训练收敛性与最终性能，在 40 个周期后，Sα 提升 1.1%，Fβmax 提升 1.76%。
密集协作融合机制有效捕捉了 RGB 与深度之间的互补线索，生成了更准确、更鲁棒的显著性图。
在高质量深度图数据集（如 RGBD135 和 SIP）上，仅使用深度的模型表现与仅使用 RGB 的模型相当或更优，验证了在合理整合下深度数据的有效性。
消融实验表明，联合学习与 DCF 组件均不可或缺，各自对整体性能提升有显著贡献。
该框架在多样化场景中泛化良好，对深度质量变化具有鲁棒性，展现出强大的现实世界适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。