Skip to main content
QUICK REVIEW

[论文解读] Deep Learning for Saliency Prediction in Natural Video

Souad Chaabouni, Jenny Benois‐Pineau|arXiv (Cornell University)|Apr 27, 2016
Visual Attention and Saliency Detection参考文献 28被引用 33
一句话总结

本论文提出一种基于CaffeNet的深度卷积神经网络(CNN),通过整合RGB、光流和对比度特征,预测自然视频中的显著区域。在IRCCYN数据集上达到89.51%的准确率,在HOLLYWOOD2数据集上AUC提升16%,并通过优化数据选择策略将计算成本降低12倍。

ABSTRACT

The purpose of this paper is the detection of salient areas in natural video by using the new deep learning techniques. Salient patches in video frames are predicted first. Then the predicted visual fixation maps are built upon them. We design the deep architecture on the basis of CaffeNet implemented with Caffe toolkit. We show that changing the way of data selection for optimisation of network parameters, we can save computation cost up to 12 times. We extend deep learning approaches for saliency prediction in still images with RGB values to specificity of video using the sensitivity of the human visual system to residual motion. Furthermore, we complete primary colour pixel values by contrast features proposed in classical visual attention prediction models. The experiments are conducted on two publicly available datasets. The first is IRCCYN video database containing 31 videos with an overall amount of 7300 frames and eye fixations of 37 subjects. The second one is HOLLYWOOD2 provided 2517 movie clips with the eye fixations of 19 subjects. On IRCYYN dataset, the accuracy obtained is of 89.51%. On HOLLYWOOD2 dataset, results in prediction of saliency of patches show the improvement up to 2% with regard to RGB use only. The resulting accuracy of 76, 6% is obtained. The AUC metric in comparison of predicted saliency maps with visual fixation maps shows the increase up to 16% on a sample of video clips from this dataset.

研究动机与目标

  • 开发一种用于自然视频显著性预测的深度学习框架,将静态图像显著性模型扩展至处理时序动态特性。
  • 通过引入运动敏感性和对比度特征,提升显著性预测的准确性,体现人类视觉系统(HVS)的特性。
  • 通过优化数据选择策略,降低训练深度CNN进行显著性预测的计算成本。
  • 在包含眼动追踪数据的公开视频数据集上评估模型性能,并与最先进方法进行比较。
  • 研究视频显著性预测中自下而上(运动、对比度)与自上而下注意力机制的协同作用。

提出的方法

  • 将CaffeNet架构适配为视频显著性预测模型,以RGB、光流和对比度特征作为输入通道。
  • 提出一种数据选择策略,在保持高准确率的前提下,将训练迭代次数减少12倍,通过在训练集上进行交叉验证验证。
  • 通过引入经典显著性模型中的对比度特征,增强输入特征,提升对亮度和颜色差异的敏感性。
  • 采用监督学习方法,将图像块分类为显著或非显著,其真实标签来自人类观察者的眼动追踪数据。
  • 通过聚合各帧中预测的显著块,构建密集显著性图,实现在整帧图像上的显著性预测。
  • 采用多尺度方法,利用AUC和准确率指标在测试片段上评估显著性图。

实验结果

研究问题

  • RQ1通过整合运动和对比度特征,深度CNN能否有效预测自然视频中的显著区域?
  • RQ2与仅使用RGB的模型相比,引入光流和对比度特征在显著性预测中带来了多大程度的性能提升?
  • RQ3在视频显著性预测模型中,优化后的数据选择策略在不损害预测准确率的前提下,能在多大程度上减少训练时间?
  • RQ4在视频显著性预测中,自下而上(运动、对比度)与自上而下(语义理解)注意力机制如何相互作用?
  • RQ5在具有眼动追踪标注的公开视频数据集上,所提模型相较于最先进方法的性能增益如何?

主要发现

  • 所提模型在IRCCYN数据集上达到89.51%的准确率,优于仅使用RGB的基线模型。
  • 在HOLLYWOOD2数据集上,与仅使用RGB输入的模型相比,该模型在显著性块预测准确率上最高提升2%。
  • 与基线模型相比,在HOLLYWOOD2数据集的一个子集片段上,预测显著性图的AUC指标最高提升16%。
  • 在逐片段评估中,添加对比度特征使模型相较SignatureSal模型平均提升0.01560,相较Seo模型平均提升0.15862。
  • 优化后的数据选择策略将计算成本最高降低12倍,实现更快收敛且准确率损失极小。
  • 在HOLLYWOOD2测试集的12个片段中,该模型在6个片段上系统性优于参考模型,展现出一致的优越性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。