QUICK REVIEW

[论文解读] State-of-the-Art in Human Scanpath Prediction

Matthias Kümmerer, Matthias Bethge|arXiv (Cornell University)|Feb 24, 2021

Visual Attention and Saliency Detection参考文献 48被引用 23

一句话总结

本文提出了一套原则性、条件化的评估框架，用于评估人类扫视路径预测模型，衡量其在给定先前注视历史和图像上下文条件下预测每次注视的能力。通过应用AUC和对数似然等既定显著性度量指标，该框架实现了跨模型的公平、可解释性基准测试，并首次对MIT1003、MIT300和CAT2000数据集进行了全面的最先进水平分析。

ABSTRACT

The last years have seen a surge in models predicting the scanpaths of fixations made by humans when viewing images. However, the field is lacking a principled comparison of those models with respect to their predictive power. In the past, models have usually been evaluated based on comparing human scanpaths to scanpaths generated from the model. Here, instead we evaluate models based on how well they predict each fixation in a scanpath given the previous scanpath history. This makes model evaluation closely aligned with the biological processes thought to underly scanpath generation and allows to apply established saliency metrics like AUC and NSS in an intuitive and interpretable way. We evaluate many existing models of scanpath prediction on the datasets MIT1003, MIT300, CAT2000 train and CAT200 test, for the first time giving a detailed picture of the current state of the art of human scanpath prediction. We also show that the discussed method of model benchmarking allows for more detailed analyses leading to interesting insights about where and when models fail to predict human behaviour. The MIT/Tuebingen Saliency Benchmark will implement the evaluation of scanpath models as detailed here, allowing researchers to score their models on the established benchmark datasets MIT300 and CAT2000.

研究动机与目标

解决在缺乏既定基准的情况下，扫描路径预测模型缺乏标准化、原则化评估的问题。
使模型评估与扫描路径生成的生物过程保持一致，即每次注视均依赖于先前的注视和图像上下文。
通过使用AUC、对数似然和NSS等成熟度量，实现对多样化扫描路径模型的公平、定量比较。
提供当前最先进模型在多个标准数据集上的详细基准分析。
在MIT/Tübingen显著性基准中集成此公开基准，以支持未来模型的评估与比较。

提出的方法

通过基于图像和所有先前注视条件化预测下一个注视位置，而非比较完整生成的扫描路径，来评估扫描路径模型。
将条件优先图作为模型输出，表示在给定历史条件下，下一个注视位置的概率分布。
直接将标准显著性度量（AUC、对数似然和NSS）应用于这些条件化预测结果进行评估。
使用对数似然评估概率模型的校准性，使用AUC评估排序性能，使用NSS进行基于z得分的预测准确性评估。
通过建模位置与持续时间的联合条件分布，将框架扩展至包含注视持续时间，适用于概率模型。
设计评估流程时保持任务无关性，通过引入任务标签作为条件，可扩展至任务驱动的扫描路径预测。

实验结果

研究问题

RQ1在给定图像和先前注视的情况下，现有扫描路径预测模型对下一个注视的预测能力如何？
RQ2在原则化且可解释的层面上，AUC、对数似然或NSS中哪一个度量最能反映扫描路径模型的预测性能？
RQ3在MIT300和CAT2000等标准基准数据集中，不同扫描路径模型的优势与劣势分别是什么？
RQ4该条件化评估框架如何揭示传统扫描路径比较方法中难以察觉的模型失效模式？
RQ5所提出的框架能否扩展至建模注视持续时间及任务相关扫描路径？

主要发现

该条件化评估框架通过将注视选择建模为顺序性、依赖历史的过程，实现了更符合生物学机制且可解释的扫描路径模型评估。
推荐将对数似然和AUC作为主要度量指标，其中对数似然对密度校准更敏感，而AUC对分布偏移更具鲁棒性。
IOR-ROI-LSTM和SceneWalk等模型表现优异，尤其在捕捉空间偏好和扫视长度约束方面。
基准测试揭示，许多模型在跨数据集泛化能力上表现不佳，尤其是在一个数据集上训练、在另一个数据集上测试时，表明其对分布变化敏感。
该框架识别出系统性预测错误，例如过度依赖低层次图像特征，或对记忆和任务上下文处理不佳。
MIT/Tübingen显著性基准将集成此扫描路径评估框架，实现公开、可复现且抗过拟合的模型比较。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。