QUICK REVIEW

[论文解读] Eye Tracking for Everyone

Kyle Krafka, Aditya Khosla|arXiv (Cornell University)|Jun 18, 2016

Gaze Tracking and Assistive Technology参考文献 39被引用 72

一句话总结

本文提出 GazeCapture，一个通过众包方式收集的包含1450名受试者的大型眼动追踪数据集，并提出 iTracker，一种深度卷积神经网络，可在移动设备上实现实时、免校准的眼动预测。该模型在手机和平板电脑上的平均误差分别为1.71cm和2.53cm，通过端到端学习和从多样化、大规模数据中泛化，优于以往方法。

ABSTRACT

From scientific research to commercial applications, eye tracking is an important tool across many domains. Despite its range of applications, eye tracking has yet to become a pervasive technology. We believe that we can put the power of eye tracking in everyone's palm by building eye tracking software that works on commodity hardware such as mobile phones and tablets, without the need for additional sensors or devices. We tackle this problem by introducing GazeCapture, the first large-scale dataset for eye tracking, containing data from over 1450 people consisting of almost 2.5M frames. Using GazeCapture, we train iTracker, a convolutional neural network for eye tracking, which achieves a significant reduction in error over previous approaches while running in real time (10-15fps) on a modern mobile device. Our model achieves a prediction error of 1.71cm and 2.53cm without calibration on mobile phones and tablets respectively. With calibration, this is reduced to 1.34cm and 2.12cm. Further, we demonstrate that the features learned by iTracker generalize well to other datasets, achieving state-of-the-art results. The code, data, and models are available at http://gazecapture.csail.mit.edu.

研究动机与目标

通过消除对专用硬件或校准的需求，实现眼动追踪的广泛可用性。
解决缺乏大规模、多样化眼动追踪数据集的问题，以训练鲁棒的深度学习模型。
开发一种可在主流移动设备上高效运行的实时、高精度眼动预测系统。
证明大规模模型学习到的深度特征无需用户特定微调即可良好泛化到其他数据集。

提出的方法

通过移动设备众包收集1450名受试者的眼动追踪数据，涵盖多样的人口统计特征、光照条件和头部运动。
训练 iTracker，一种卷积神经网络，以眼部和面部区域裁剪为输入，端到端预测眼动方向。
应用知识蒸馏技术，将大型 iTracker 模型压缩为更小、更快的版本，实现在移动设备上的实时推理（10–15fps）。
使用面部网格表示以提升空间定位精度和模型鲁棒性，而无需依赖手工设计的特征。
使用域内（GazeCapture）和域外（TabletGaze、MPIIGaze）数据集评估模型性能，以评估泛化能力。
通过厘米为单位的平均误差等指标，与最先进方法进行比较，包括有无校准的情况。

实验结果

研究问题

RQ1通过众包方式收集的大规模、多样化眼动追踪数据集，是否能实现在移动设备上的高精度、免校准眼动预测？
RQ2与传统基于模型或基于外观的方法相比，大规模数据的端到端深度学习在多大程度上提升了眼动预测的准确性？
RQ3深度神经网络学习到的特征在多大程度上能泛化到其他数据集和硬件平台？
RQ4数据集规模（受试者数量）与每位受试者的样本数量相比，对模型性能的相对影响如何？

主要发现

iTracker 在无校准条件下，手机和平板电脑上的平均预测误差分别为1.71cm和2.53cm，显著优于以往方法。
经过校准后，误差降低至手机1.34cm和平板2.12cm，证明了模型泛化能力的有效性。
iTracker 学习到的特征泛化能力极强，在 TabletGaze 数据集上表现优于最先进方法，误差达2.58cm。
消融实验表明，面部和面部网格输入贡献显著，而移除眼部输入仅轻微降低性能，表明未来可构建更高效的模型。
实验结果证实，增加受试者数量（多样性）比增加每位受试者的样本数量更有益，凸显了数据多样性的关键作用。
经过知识蒸馏后，模型在移动设备上保持实时性能（10–15fps），实现了实际部署的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。