[论文解读] Computational models: Bottom-up and top-down aspects
本文对视觉注意的计算模型进行了全面分析,区分了自下而上(刺激驱动)和自上而下(目标导向)的引导机制。文章强调了显著性图在预测眼动中的作用,回顾了用于模型评估的基准数据集,并指出3D+时间场景理解是人类与机器注意之间存在的关键差距。
Computational models of visual attention have become popular over the past decade, we believe primarily for two reasons: First, models make testable predictions that can be explored by experimentalists as well as theoreticians, second, models have practical and technological applications of interest to the applied science and engineering communities. In this chapter, we take a critical look at recent attention modeling efforts. We focus on {\em computational models of attention} as defined by Tsotsos \& Rothenstein \shortcite{Tsotsos_Rothenstein11}: Models which can process any visual stimulus (typically, an image or video clip), which can possibly also be given some task definition, and which make predictions that can be compared to human or animal behavioral or physiological responses elicited by the same stimulus and task. Thus, we here place less emphasis on abstract models, phenomenological models, purely data-driven fitting or extrapolation models, or models specifically designed for a single task or for a restricted class of stimuli. For theoretical models, we refer the reader to a number of previous reviews that address attention theories and models more generally \cite{Itti_Koch01nrn,Paletta_etal05,Frintrop_etal10,Rothenstein_Tsotsos08,Gottlieb_Balan10,Toet11,Borji_Itti12pami}.
研究动机与目标
- 批判性评估计算视觉注意模型,重点关注引导机制。
- 区分自下而上(刺激驱动)与自上而下(目标驱动)的注意模型。
- 评估使用眼动数据作为模型评估基准的有效性与局限性。
- 识别在复杂动态环境中建模类人注意的剩余挑战。
- 强调需要先进的场景理解(3D + 时间)以弥合人类与机器注意之间的差距。
提出的方法
- 采用计算注意模型的定义,即能够处理任何视觉刺激并预测人类或动物行为/生理反应的系统。
- 聚焦于将图像转换为基于特征计算的视觉显著性空间图的显著性图模型。
- 使用包含眼动记录的基准数据集(例如,Judd 等,2009;Borji 等,2012b)进行定量模型比较。
- 利用AUC、CC和NSS等指标分析模型性能,将预测结果与人类注视模式进行比较。
- 整合主动视觉与机器人系统,建模显著性图如何引导扫描路径和任务驱动的扫视。
- 考虑扫视序列中的时间动态,特别是在任务情境下,以评估模型预测扫描路径顺序与时间的能力。
实验结果
研究问题
- RQ1自下而上与自上而下的注意机制在计算实现和行为影响方面有何不同?
- RQ2显著性图模型在静态和动态视觉刺激中多大程度上能预测人类眼动?
- RQ3将眼动数据作为评估注意模型的黄金标准,其局限性是什么?
- RQ4任务背景如何影响扫视的顺序与时间?模型能否捕捉这一影响?
- RQ53D场景几何与时间事件理解在缩小人类与机器注意性能差距方面发挥什么作用?
主要发现
- 自下而上的模型,特别是基于显著性图的模型,由于其无任务、刺激驱动的特性,发展更成熟且更易于验证。
- 显著性图模型在基准数据集上表现优异,最先进模型在标准数据集上的AUC得分超过0.8。
- 基于眼动的评估指标(如AUC、CC)已得到广泛认可,但可能受数据集伪影影响,并且难以区分隐性注意与显性注意。
- 在任务情境中,自上而下的影响占主导地位,但自下而上的处理在初始场景解析与目标定位中依然至关重要。
- 目前最大的差距在于对3D场景几何与时间事件理解的建模,这些因素对于模拟复杂人类行为(如制作三明治)至关重要。
- 在任务驱动场景(如驾驶、烹饪)中,序列扫描路径建模比在自由观看条件下更具信息量,因为在后者中扫视顺序的可预测性较低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。