[论文解读] CAT2000: A Large Scale Fixation Dataset for Boosting Saliency Research
本论文提出了CAT2000,一个大规模的注视点数据集,包含来自120名观察者的4,000张图像,覆盖20种不同的类别,采用高精度眼动追踪技术采集。该数据集通过引入多样化刺激(如随机、杂乱和社交场景)来缓解先前显著性基准中的偏差,挑战模型在非中心偏向或低变异性刺激上的表现,揭示了现有模型在复杂、语义丰富或非中心偏向类别上的显著性能差距。
Saliency modeling has been an active research area in computer vision for about two decades. Existing state of the art models perform very well in predicting where people look in natural scenes. There is, however, the risk that these models may have been overfitting themselves to available small scale biased datasets, thus trapping the progress in a local minimum. To gain a deeper insight regarding current issues in saliency modeling and to better gauge progress, we recorded eye movements of 120 observers while they freely viewed a large number of naturalistic and artificial images. Our stimuli includes 4000 images; 200 from each of 20 categories covering different types of scenes such as Cartoons, Art, Objects, Low resolution images, Indoor, Outdoor, Jumbled, Random, and Line drawings. We analyze some basic properties of this dataset and compare some successful models. We believe that our dataset opens new challenges for the next generation of saliency models and helps conduct behavioral studies on bottom-up visual attention.
研究动机与目标
- 解决因小规模、有偏差的注视点数据集及刺激多样性有限而导致的显著性模型过拟合风险。
- 通过引入非中心、语义丰富且人工生成的图像类别(如杂乱、随机和社交场景)来减少基准测试中的中心偏向。
- 提供一个大规模、高质量的眼动追踪数据集,以支持显著性模型的稳健评估以及自下而上与自上而下的注意力机制的行为学研究。
- 实现训练与测试协议,使模型在已见和未见图像上均接受评估,同时保留部分观察者的注视点数据,以模拟真实世界部署场景。
- 推动下一代显著性模型的发展,使其不仅依赖低层次特征,还能整合语义、自上而下及非视觉注意力线索。
提出的方法
- 使用Eyelink-1000眼动仪对120名观察者进行眼动数据采集,采用5点校准,确保时间与空间精度。
- 采集了4,000张图像,涵盖20个类别,包括自然场景、卡通、线条画、分形、噪声图像、低分辨率图像以及随机视角图像,以确保多样性。
- 通过搜索引擎控制图像采集,结合精选数据集(如Caltech256、SUN、Eitz)以及图像分区的随机混洗,生成杂乱图像。
- 采用标准化的扫视检测方法,设定速度阈值(>35°/s)与加速度阈值(>9500°/s²),以确保注视点标注的一致性。
- 将数据集划分为训练集(每类100张图像,18名观察者)与测试集(每类100张图像,所有24名观察者的注视点数据均被保留),用于模型评估。
- 采用归一化扫描路径显著性(NSS)作为标准指标,衡量注视点预测的准确性,结果在类别与观察者间取平均。
实验结果
研究问题
- RQ1模型在具有不同注意力线索(如自下而上 vs. 自上而下)的多样化图像类别中的表现如何变化?
- RQ2当前的显著性模型在非中心偏向或语义复杂的刺激(如社交场景或杂乱图像)上的泛化能力如何?
- RQ3在不同图像类别中,注视点模式的观察者间一致性如何?其与模型性能的相关性如何?
- RQ4中心偏向与图像内容分布如何影响现有基准上显著性模型评估的可靠性?
- RQ5大规模、多样化的数据集能否减少过拟合并提升显著性模型在有偏差数据集上的泛化能力,超越当前最先进水平?
主要发现
- 模型在素描和物体类别中表现优异(素描类别NSS排名第一),但在线条画、杂乱图像、社交场景和卫星图像中的得分显著偏低。
- ITTI、HouCVPR、GBVS和AWS模型的性能均远低于观察者间一致性模型,表明其在建模人类注视行为方面存在明显差距。
- 具有高中心偏向的类别(如情感类、黑白类、素描类)表现出更高的观察者间一致性(IO得分),而杂乱图像与卫星图像的一致性较低。
- 每幅图像的平均扫视次数约为20次,持续5秒观看时间,标准差约为6次,表明观察者间观看行为稳定。
- 该数据集包含24,148,768次扫视与240小时总观看时间,构成大规模、高保真的眼动追踪语料库。
- 模型在处理自上而下的线索(如社交场景中的注视方向)以及非视觉内容(如随机或倒置图像)时表现不佳,表明其在语义理解方面存在局限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。