[论文解读] TurkerGaze: Crowdsourcing Saliency with Webcam based Eye Tracking
本文提出 TurkerGaze,一种基于亚马逊机械 Turk 平台网络摄像头的众包眼动追踪系统,可大规模收集高质量的显著性数据。通过将眼动追踪整合到游戏化界面中,该系统在显著降低成本和人力投入的前提下,实现了接近实验室水平的准确性,从而实现了 iSUN 数据集的构建——该数据集包含 20,608 幅自然场景图像,每幅图像有 3 名观察者参与标注。
Traditional eye tracking requires specialized hardware, which means collecting gaze data from many observers is expensive, tedious and slow. Therefore, existing saliency prediction datasets are order-of-magnitudes smaller than typical datasets for other vision recognition tasks. The small size of these datasets limits the potential for training data intensive algorithms, and causes overfitting in benchmark evaluation. To address this deficiency, this paper introduces a webcam-based gaze tracking system that supports large-scale, crowdsourced eye tracking deployed on Amazon Mechanical Turk (AMTurk). By a combination of careful algorithm and gaming protocol design, our system obtains eye tracking data for saliency prediction comparable to data gathered in a traditional lab setting, with relatively lower cost and less effort on the part of the researchers. Using this tool, we build a saliency dataset for a large number of natural images. We will open-source our tool and provide a web server where researchers can upload their images to get eye tracking results from AMTurk.
研究动机与目标
- 解决传统实验室眼动追踪在显著性数据收集中成本高昂且可扩展性有限的问题。
- 开发一种鲁棒的、基于浏览器的网络摄像头眼动追踪系统,使其在非受控环境下仍能稳定运行。
- 设计一种游戏化界面,激励参与者在无需专业训练的情况下提供准确的眼动数据。
- 利用众包参与者大规模收集自然场景的自由观看显著性数据。
- 将众包眼动数据的质量与金标准实验室数据进行对比,并对显著性预测模型进行基准测试。
提出的方法
- 在基于浏览器的游戏内部署基于网络摄像头的眼动追踪系统,以从机械 Turk 工作者处收集眼动数据。
- 采用基于外观的眼动估计方法,结合自适应线性回归,从眼图像中预测眼动位置,最大限度减少校准需求。
- 设计两种游戏场景——“寻找目标”和“找出不同”——以促进持续关注并准确报告注视点。
- 应用实时眼动估计流程,通过合成训练数据和稀疏校准点,补偿头部移动和光照变化。
- 聚合每幅图像多位参与者的注视数据,生成稳健的显著性图,并构建包含完整物体/场景标注的 iSUN 数据集。
- 使用 AUC、精确率、召回率以及与实验室数据的注视分布相似性等标准指标评估性能。
实验结果
研究问题
- RQ1在亚马逊机械 Turk 等众包平台上,基于网络摄像头的眼动追踪能否产生与传统实验室眼动追踪质量相当的显著性数据?
- RQ2通过 TurkerGaze 收集的眼动数据在注视点准确性与分布上与金标准实验室数据相比,其量化表现如何?
- RQ3众包眼动数据在多大程度上可用于训练和评估显著性预测模型?
- RQ4机械 Turk 参与者在人口统计学和行为特征上的多样性,如何影响所收集眼动数据的可靠性和泛化能力?
- RQ5所提出的系统能否推广至自由观看自然场景之外的其他视觉刺激和任务?
主要发现
- TurkerGaze 系统在注视点估计方面达到了与传统实验室眼动追踪相当的准确性,平均绝对误差为 1.05°。
- 通过 TurkerGaze 收集的注视点分布比实验室数据更偏中心,可能源于观看行为或图像呈现方式的差异。
- 使用 AMTurk 数据进行显著性预测的留一法 AUC 低于 Judd 实验室数据,表明众包数据中存在更高的位置噪声。
- 尽管存在噪声,基于 TurkerGaze 数据生成的显著性图仍达到了与最先进计算模型相当的 AUC 分数,证明其在训练和评估中的实用性。
- 使用 TurkerGaze 构建的 iSUN 数据集包含 20,608 幅完全标注的自然场景图像,平均每幅图像有 3 名观察者,是迄今为止最大的自由观看显著性数据集。
- 该系统成功减少了校准需求,并实现在普通消费级硬件上的实时眼动追踪,从而实现了可扩展的数据收集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。