[论文解读] Camouflaged Object Segmentation with Distraction Mining
PFNet 引入了一种生物启发的定位与聚焦框架用于伪装目标分割,采用干扰挖掘来抑制误报并恢复漏检,在实时速度下达到最先进的性能。
Camouflaged object segmentation (COS) aims to identify objects that are "perfectly" assimilate into their surroundings, which has a wide range of valuable applications. The key challenge of COS is that there exist high intrinsic similarities between the candidate objects and noise background. In this paper, we strive to embrace challenges towards effective and efficient COS. To this end, we develop a bio-inspired framework, termed Positioning and Focus Network (PFNet), which mimics the process of predation in nature. Specifically, our PFNet contains two key modules, i.e., the positioning module (PM) and the focus module (FM). The PM is designed to mimic the detection process in predation for positioning the potential target objects from a global perspective and the FM is then used to perform the identification process in predation for progressively refining the coarse prediction via focusing on the ambiguous regions. Notably, in the FM, we develop a novel distraction mining strategy for distraction discovery and removal, to benefit the performance of estimation. Extensive experiments demonstrate that our PFNet runs in real-time (72 FPS) and significantly outperforms 18 cutting-edge models on three challenging datasets under four standard metrics.
研究动机与目标
- 通过模仿捕食检测与识别阶段来激发 COS 的研究动机。
- 开发一个两模块网络(定位模块和聚焦模块)以定位并细化伪装目标。
- 引入干扰挖掘策略以发现并去除误干扰。
- 在多个基准上实现实时 COS 并获得更高准确性。
- 展示消融研究以表明 PM 和 FM 组件的贡献。
提出的方法
- 以 ResNet-50 作为骨干,从 RGB 图像提取多级特征。
- 定位模块使用通道和空间非局部注意力生成初始目标定位图。
- 聚焦模块通过前景与背景注意力特征及上下文探索块执行干扰挖掘,以发现假阳性/假阴性。
- 干扰发现使用四分支上下文探索块,结合多尺度扩张卷积以捕捉广泛上下文。
- 通过减法/加法结合被去除干扰的特征,并通过可学习的标量进行细化。
- 损失函数将 PM 损失(BCE + IoU)与 FM 损失(加权 BCE + 加权 IoU)结合,并采用渐进的多层加权方案。
- 训练使用 SGD、ImageNet 预训练的骨干、输入尺寸 416x416、无 CRF 等后处理,并实现 72 FPS 推理。
实验结果
研究问题
- RQ1一个生物启发的定位与聚焦框架是否能在伪装目标分割上超越现有最先进方法?
- RQ2干扰挖掘如何影响 COS 中对误报与漏检的处理?
- RQ3PM 与 FM 组件对总体性能的贡献是什么?
- RQ4PFNet 是否能够在标准 COS 基准上实现实时推理?
- RQ5对注意力块和干扰流的消融对性能有何影响?
主要发现
| 方法 | CHAMELEON S_alpha | CHAMELEON E_phi_ad | CHAMELEON F_beta_w | CHAMELEON M | CAMO S_alpha | CAMO E_phi_ad | CAMO F_beta_w | CAMO M | COD10K S_alpha | COD10K E_phi_ad | COD10K F_beta_w | COD10K M |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PFNet * | 0.882 | 0.942 | 0.810 | 0.033 | 0.782 | 0.852 | 0.695 | 0.085 | 0.800 | 0.868 | 0.660 | 0.040 |
| SINet * | 0.869 | 0.899 | 0.740 | 0.044 | 0.751 | 0.834 | 0.606 | 0.051 | 0.771 | 0.797 | 0.551 | 0.051 |
- PFNet 在三个 COS 基准 CHAMELEON、CAMO 和 COD10K 上使用四个指标(S_alpha, E_ad, F_w, M)达到最先进的结果。
- PFNet 显著优于 SINet 和其他基线,例如在 CHAMELEON 上:S_alpha 0.882, E_ad 0.942, F_w 0.810, M 0.033;在 CAMO 上:S_alpha 0.782, E_ad 0.852, F_w 0.695, M 0.085;在 COD10K 上:S_alpha 0.800, E_ad 0.868, F_w 0.660, M 0.040。
- 推理速率为 72 FPS,快于 SINet(72 vs 51 FPS)。
- 消融研究表明定位模块和聚焦模块(包括干扰挖掘组件)均可显著提升性能。
- 结合上下文探索块的干扰挖掘(误阳性和误阴性)可带来更清晰的目标轮廓和对伪装结构的更好处理。
- 定性结果显示对小型、大型和多对象伪装场景的分割得到改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。