Skip to main content
QUICK REVIEW

[论文解读] Recurrent Attentional Networks for Saliency Detection

Jason Kuen, Zhenhua Wang|arXiv (Cornell University)|Apr 12, 2016
Visual Attention and Saliency Detection参考文献 48被引用 51
一句话总结

本文提出循环注意力卷积-反卷积网络(RACDNN),通过空间变换器和循环单元迭代优化显著性图,聚焦于子区域,从而提升多尺度目标检测能力,并利用迭代过程中的上下文依赖关系。RACDNN在ECSSD、HKUIS和SED2数据集上优于当前最先进方法,F-measure最高提升5%,MAE显著降低。

ABSTRACT

Convolutional-deconvolution networks can be adopted to perform end-to-end saliency detection. But, they do not work well with objects of multiple scales. To overcome such a limitation, in this work, we propose a recurrent attentional convolutional-deconvolution network (RACDNN). Using spatial transformer and recurrent network units, RACDNN is able to iteratively attend to selected image sub-regions to perform saliency refinement progressively. Besides tackling the scale problem, RACDNN can also learn context-aware features from past iterations to enhance saliency refinement in future iterations. Experiments on several challenging saliency detection datasets validate the effectiveness of RACDNN, and show that RACDNN outperforms state-of-the-art saliency detection methods.

研究动机与目标

  • 解决CNN-DeCNN中感受野固定对多尺度显著性检测的限制。
  • 克服标准卷积-反卷积网络在密集显著性预测中缺乏上下文建模的问题。
  • 整合循环与注意力机制,利用先前迭代的上下文信息逐步优化显著性图。
  • 通过空间自适应、基于注意力的子区域聚焦,实现端到端、迭代式的显著性预测优化。
  • 提升在包含多个或小型显著性目标的复杂场景中的性能,尤其在低层次先验失效时表现更优。

提出的方法

  • 使用基础CNN-DeCNN从完整输入图像生成初始显著性图。
  • 应用循环注意力模块,利用空间变换器在每次迭代中动态关注图像子区域。
  • 将关注的子区域特征输入第二个CNN-DeCNN,实现局部显著性图的精细化。
  • 利用循环连接,将前序迭代的上下文信息传递至当前迭代,以提升优化效果。
  • 采用均值漂移后处理方法,进一步优化最终输出的显著性图。
  • 使用真实显著性图的监督损失,端到端训练整个RACDNN框架。

实验结果

研究问题

  • RQ1循环注意力机制能否提升对不同尺度目标的显著性检测性能?
  • RQ2基于空间注意力的迭代优化能否增强边界精度并更好保留目标细节?
  • RQ3利用先前迭代的上下文特征,能否使显著性预测超越单次前向传播网络?
  • RQ4基于注意力的子区域聚焦能否有效减少背景杂波与复杂场景的干扰?
  • RQ5RACDNN在定量与定性层面相较于当前最先进显著性检测模型表现如何?

主要发现

  • 在ECSSD数据集上,RACDNN的F-measure达到87.81%,比次优方法DRFI高出5.0%。
  • 在HKUIS数据集上,RACDNN将平均绝对误差(MAE)降低至7.03%,优于MCDL(9.13%)与MDF(12.93%)的MAE表现。
  • 定性结果表明,RACDNN能成功检测到多个交错的显著性目标(如狗与兔子),而其他方法则会漏检其中一者。
  • 如图1所示,初始显著性图与优化后显著性图的对比显示,该方法显著提升了边缘锐度与目标细节保留能力。
  • NRACDNN(非循环注意力)优于基线模型,但逊于RACDNN,证明了循环上下文建模的价值。
  • 在复杂场景(ECSSD与HKUIS)中,RACDNN相较于SOTA方法的性能提升最为显著,表明其对杂波与尺度变化具有更强鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。