QUICK REVIEW

[论文解读] Saliency Prediction in the Deep Learning Era: An Empirical Investigation.

Ali Borji|arXiv (Cornell University)|Oct 8, 2018

Visual Attention and Saliency Detection被引用 46

一句话总结

本文对基于深度学习的视觉显著性模型进行了全面的实证研究，评估了其在多个图像和视频基准上的性能。研究识别出模型预测与人类注意力之间的持续差距，分析了失败模式，并提出了下一代显著性模型的关键挑战和研究方向。

ABSTRACT

Visual saliency models have enjoyed a big leap in performance in recent years, thanks to advances in deep learning and large scale annotated data. Despite enormous effort and huge breakthroughs, however, models still fall short in reaching human-level accuracy. In this work, I explore the landscape of the field emphasizing on new deep saliency models, benchmarks, and datasets. A large number of image and video saliency models are reviewed and compared over two image benchmarks and two large scale video datasets. Further, I identify factors that contribute to the gap between models and humans and discuss remaining issues that need to be addressed to build the next generation of more powerful saliency models. Some specific questions that are addressed include: in what ways current models fail, how to remedy them, what can be learned from cognitive studies of attention, how explicit saliency judgments relate to fixations, how to conduct fair model comparison, and what are the emerging applications of saliency models.

研究动机与目标

使用标准化基准评估基于深度学习的视觉显著性模型的当前状态。
识别现有模型在预测人类视觉注意力方面系统性失败的原因。
探讨显式显著性判断与眼动数据之间的关系。
在图像和视频数据集之间建立公平的显著性模型比较协议。
突出显著性建模中的开放挑战和新兴应用。

提出的方法

本研究在两个图像基准和两个大规模视频数据集上，回顾并比较了大量最先进的深度显著性模型。
采用标准化评估指标，以确保模型比较的公平性和可复现性。
结合认知科学的洞见，解释模型预测与人类注视模式之间的差异。
利用多样化的、大规模的标注数据集，对图像和视频显著性模型进行评估。
研究显式显著性标注与眼动追踪注视数据之间的对齐程度，以评估模型的有效性。
方法包括系统性的失败分析，以识别模型泛化能力和鲁棒性中的反复性弱点。

实验结果

研究问题

RQ1当前的深度显著性模型在多大程度上无法准确预测人类的注视模式？
RQ2显式显著性判断与实际的人眼运动和注视行为之间存在何种关系？
RQ3哪些因素导致了深度学习模型与人类观察者之间的性能差距？
RQ4如何在不同数据集和评估协议之间实现模型比较的公平性和意义性？
RQ5认知科学中关于注意力的洞见，如何能指导设计更符合人类注意力机制的显著性模型？

主要发现

尽管取得了显著进展，基于深度学习的显著性模型在预测视觉注意力方面仍未能达到人类水平的准确性。
模型在处理复杂场景、遮挡和动态内容方面表现出系统性失败，尤其是在视频场景中。
显式显著性判断与注视数据之间存在显著差异，表明并非所有显著性标注都能等效地捕捉注意力。
由于评估协议不一致和数据集偏差，公平的模型比较极具挑战性。
认知科学的洞见表明，人类注意力机制涉及自上而下与自下而上的整合，而当前模型往往未能有效模拟这一点。
显著性模型的新兴应用涵盖视觉分析、机器人技术和人机交互，显示出日益增长的实际相关性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。