Skip to main content
QUICK REVIEW

[论文解读] Amulet: Aggregating Multi-level Convolutional Features for Salient Object Detection

Pingping Zhang, Dong Wang|arXiv (Cornell University)|Aug 7, 2017
Visual Attention and Saliency Detection参考文献 45被引用 116
一句话总结

Amulet 提出了一种多层次特征聚合框架 (AmuletNet),将多分辨率的 FCN 特征与双向递归监督和边界保持的细化相结合,以推动显著性对象检测的发展。它在主要数据集上实现了最先进的结果,并且接近实时运行。

ABSTRACT

Fully convolutional neural networks (FCNs) have shown outstanding performance in many dense labeling problems. One key pillar of these successes is mining relevant information from features in convolutional layers. However, how to better aggregate multi-level convolutional feature maps for salient object detection is underexplored. In this work, we present Amulet, a generic aggregating multi-level convolutional feature framework for salient object detection. Our framework first integrates multi-level feature maps into multiple resolutions, which simultaneously incorporate coarse semantics and fine details. Then it adaptively learns to combine these feature maps at each resolution and predict saliency maps with the combined features. Finally, the predicted results are efficiently fused to generate the final saliency map. In addition, to achieve accurate boundary inference and semantic enhancement, edge-aware feature maps in low-level layers and the predicted results of low resolution features are recursively embedded into the learning framework. By aggregating multi-level convolutional features in this efficient and flexible manner, the proposed saliency model provides accurate salient object labeling. Comprehensive experiments demonstrate that our method performs favorably against state-of-the art approaches in terms of near all compared evaluation metrics.

研究动机与目标

  • 激励在显著性对象检测中有效利用多层卷积特征,超越仅仅依赖最后一层语义。
  • 开发一个将特征聚合到多分辨率的框架,以在粗略语义和细粒细节之间取得平衡。
  • 引入递归监督,以实现双向信息流并提升边界精度。
  • 结合对边缘敏感的低层特征和低分辨率预测,以细化对象边界。
  • 展示在跨数据集的强泛化能力以及在 GPU 上的高效推理。

提出的方法

  • 在 VGG-16 主干上构建 AmuletNet,包括五个卷积块;去除最后的池化以获得 conv1-2、conv2-2、conv3-3、conv4-3、conv5-3 的特征。
  • 引入基于分辨率的特征整合(RFC),同时将多层特征调整大小并融合成多种分辨率。
  • 使用带自回归连接的深度递归监督(DRS)及深度监督损失,使预测之间实现双向信息流。
  • 通过结合对边缘敏感的低层特征来应用边界保持细化(BPR),以细化最终显著性边界。
  • 通过融合多层预测以及前景/背景激发图的自适应均值-对比融合来推断最终的显著性图。

实验结果

研究问题

  • RQ1多层次、多分辨率的特征聚合是否能够超越单一层级高层语义来提升显著性检测?
  • RQ2双向递归监督是否能够在层级之间实现更好的信息共享并提升边界精度?
  • RQ3对边缘有感知的低层特征与边界细化是否能显著提升显著性边界定位?
  • RQ4尽管在 MSRA10K 上进行训练,AmuletNet 是否对不同的显著性数据集具有良好的一般化能力?

主要发现

  • 与 64+ 个基线相比,AmuletNet 在主要数据集(DUTS-TE、ECSSD、HKU-IS、PASCAL-S、SOD)上实现了最先进的 F-measure 和 MAE。
  • 边界保持细化(BPR)显著提升 MAE 和边界精度,消融实验显示没有 BPR 时 MAE 会下降。
  • 多分辨率的多层特征整合相较于单一分辨率基线提升性能;更高的分辨率带来更好的结果。
  • 深度递归监督实现双向信息流,在显著性任务中优于传统的深度监督网络。
  • 在 MSRA10K 上训练的模型对其他大规模数据集具有良好泛化能力,超越在目标数据集上进行预训练的方法。
  • 该方法在现代 GPU 上大约以 16 帧/秒的速度运行。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。