Skip to main content
QUICK REVIEW

[论文解读] Visual Saliency Based on Multiscale Deep Features

Guanbin Li, Yizhou Yu|arXiv (Cornell University)|Mar 30, 2015
Visual Attention and Saliency Detection参考文献 33被引用 259
一句话总结

该论文提出了一种基于深度学习的视觉显著性模型,利用预训练卷积神经网络(CNN)的多尺度深度特征,以高精度预测显著性图。通过结合嵌套图像区域的多尺度特征、用于回归的全连接层、空间一致性优化以及多级分割融合,该方法在新构建的大规模基准数据集(HKU-IS)上实现了最先进性能,F-Measure提升13.2%,平均绝对误差(MAE)降低35.1%。

ABSTRACT

Visual saliency is a fundamental problem in both cognitive and computational sciences, including computer vision. In this CVPR 2015 paper, we discover that a high-quality visual saliency model can be trained with multiscale features extracted using a popular deep learning architecture, convolutional neural networks (CNNs), which have had many successes in visual recognition tasks. For learning such saliency models, we introduce a neural network architecture, which has fully connected layers on top of CNNs responsible for extracting features at three different scales. We then propose a refinement method to enhance the spatial coherence of our saliency results. Finally, aggregating multiple saliency maps computed for different levels of image segmentation can further boost the performance, yielding saliency maps better than those generated from a single segmentation. To promote further research and evaluation of visual saliency models, we also construct a new large database of 4447 challenging images and their pixelwise saliency annotation. Experimental results demonstrate that our proposed method is capable of achieving state-of-the-art performance on all public benchmarks, improving the F-Measure by 5.0% and 13.2% respectively on the MSRA-B dataset and our new dataset (HKU-IS), and lowering the mean absolute error by 5.7% and 35.1% respectively on these two datasets.

研究动机与目标

  • 开发一种基于深度学习的视觉显著性模型,有效利用预训练CNN特征捕捉多尺度上下文对比。
  • 通过引入空间一致性与多级图像分割,解决现有显著性模型在定位精度与鲁棒性方面的局限性。
  • 构建一个全新的大规模、具有挑战性的基准数据集(HKU-IS),包含4,447张图像及像素级显著性标注,以支持先进的显著性研究。
  • 证明来自预训练ImageNet网络的多尺度深度特征在显著性预测中极为有效,优于传统手工设计特征。

提出的方法

  • 从每个图像区域周围的三个嵌套矩形窗口提取多尺度CNN特征:区域本身、其邻近区域以及整个图像。
  • 使用全连接神经网络,基于拼接后的多尺度CNN特征回归预测显著性分数,训练过程基于标注的显著性图。
  • 应用空间一致性优化模块,以增强预测显著性图的平滑性与结构一致性。
  • 融合从15个图像分割层级生成的显著性图,以提升检测精度与鲁棒性。
  • 采用大规模标注显著性图数据集,通过回归损失端到端训练模型,以优化F-Measure与平均绝对误差(MAE)。
  • 使用预训练的ImageNet CNN作为特征提取器,以利用深层层次化表示中的丰富语义信息。

实验结果

研究问题

  • RQ1与传统方法相比,来自预训练CNN的多尺度深度特征是否能显著提升视觉显著性预测性能?
  • RQ2空间一致性与多级图像分割的融合在优化显著性预测方面有多高效?
  • RQ3多尺度特征在多大程度上能够捕捉区域对比与语义上下文,从而实现更优的显著性估计?
  • RQ4基于深度学习的显著性模型在更复杂、更多样化且更具挑战性的数据集上,其性能表现如何?
  • RQ5新的大规模基准数据集(HKU-IS)是否能更有效地支持最先进显著性模型的评估与推进?

主要发现

  • 与第二好的方法相比,该方法在新构建的HKU-IS数据集上F-Measure提升13.2%,显著优于现有模型。
  • 在MSRA-B数据集上,该方法F-Measure提升5.0%,MAE降低5.7%,优于第二好的基线模型。
  • 在具有挑战性的HKU-IS数据集上,该方法将MAE降低35.1%,表明其在包含多个显著目标的复杂场景中表现卓越。
  • 空间一致性优化的引入同时提升了精确率与召回率,显著改善了显著性图的平滑性与准确性,视觉与定量结果均表现明显。
  • 融合15个分割层级生成的显著性图,使平均精确率提升2.15%,召回率提升3.47%,优于最佳单一层级分割结果。
  • 消融实验表明,多尺度特征向量的三个组成部分(A、B、C)具有互补性,完整S-3CNN特征集表现最佳。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。