[论文解读] BBS-Net: RGB-D Salient Object Detection with a Bifurcated Backbone Strategy Network
BBS-Net 提出了一种新颖的、与主干网络无关的实时 RGB-D 显著性目标检测网络,采用双分支主干策略(BBS)将多层级特征划分为教师分支和学生分支,并结合深度增强模块(DEM),通过通道注意力和空间注意力机制融合 RGB 与深度模态。该方法在四个指标下的七个基准测试中达到最先进性能,优于 18 种最先进方法,且推理速度达 48 fps。
Multi-level feature fusion is a fundamental topic in computer vision for detecting, segmenting, and classifying objects at various scales. When multi-level features meet multi-modal cues, the optimal fusion problem becomes a hot potato. In this paper, we make the first attempt to leverage the inherent multi-modal and multi-level nature of RGB-D salient object detection to develop a novel cascaded refinement network. In particular, we 1) propose a bifurcated backbone strategy (BBS) to split the multi-level features into teacher and student features, and 2) utilize a depth-enhanced module (DEM) to excavate informative parts of depth cues from the channel and spatial views. This fuses RGB and depth modalities in a complementary way. Our simple yet efficient architecture, dubbed Bifurcated Backbone Strategy Network (BBS-Net), is backbone independent, runs in real-time (48 fps), and significantly outperforms 18 SOTAs on seven challenging datasets using four metrics.
研究动机与目标
- 为解决 RGB-D 显著性目标检测中多层级与多模态特征的最优融合问题。
- 设计一种轻量化、高效且与主干网络无关的架构,通过结构化特征分支提升特征表示能力。
- 通过深度增强模块(DEM)提取互补的空间与通道级线索,系统性地提升深度模态的利用效率。
- 在多样且具有挑战性的数据集上实现实时推理(48 fps),同时不损失性能。
- 在七个基准数据集上,使用四种评估指标,超越 18 种最先进方法。
提出的方法
- 提出双分支主干策略(BBS),将多层级特征划分为独立的教师与学生特征流,实现级联优化。
- 设计深度增强模块(DEM),通过通道注意力与空间注意力机制处理深度特征,突出信息丰富的区域。
- 通过在多个层级上融合 DEM 输出与 RGB 特征,实现 RGB 与深度特征的互补融合。
- 构建级联优化网络,利用双模态的优化特征逐步提升预测精度。
- 通过设计与主干网络解耦的结构,确保网络兼容多种主干架构(如 ResNet 或 MobileNet)。
- 优化推理速度,在标准硬件上实现 48 fps 的实时性能。
实验结果
研究问题
- RQ1如何在 RGB-D 显著性目标检测中有效融合多层级与多模态特征,以提升检测精度?
- RQ2将多层级特征解耦为教师与学生分支对特征优化与性能的影响是什么?
- RQ3如何系统性地利用深度信息,超越原始像素级输入,以增强显著性预测?
- RQ4轻量化、与主干网络无关的架构能否在保持实时推理速度的同时实现最先进性能?
- RQ5通道注意力与空间注意力在深度特征增强中对显著性检测的贡献是什么?
主要发现
- BBS-Net 在七个具有挑战性的 RGB-D 显著性检测数据集上达到最先进性能,优于 18 种现有 SOTA 方法。
- 网络推理速度达 48 帧每秒,展现出适用于实际部署的实时推理能力。
- 双分支主干策略实现了有效的级联特征优化,提升了多尺度下的特征表示能力。
- 深度增强模块(DEM)通过提取通道与空间维度的信息线索,显著增强了深度模态的利用效率。
- 所提方法与主干网络无关,可无缝集成多种 CNN 架构,且性能无下降。
- 定量结果表明,在所有七个数据集上,四种评估指标(如平均 F-measure、平均 E-measure、S-measure 和平均 DSI)均实现一致提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。