QUICK REVIEW

[论文解读] TabletGaze: A Dataset and Baseline Algorithms for Unconstrained Appearance-based Gaze Estimation in Mobile Tablets.

Qiong Huang, Ashok Veeraraghavan|arXiv (Cornell University)|Aug 5, 2015

Gaze Tracking and Assistive Technology参考文献 30被引用 18

一句话总结

本文介绍了Rice TabletGaze数据集，这是首个针对移动平板电脑的大规模非约束性眼动估计数据集，并提出了使用多层级HOG特征和随机森林回归器的TabletGaze算法。在未经校准的自然平板使用场景下，该算法实现了3.17厘米的平均误差，且对用户人口统计特征和姿势的影响进行了广泛分析。

ABSTRACT

We study gaze estimation on tablets; our key design goal is uncalibrated gaze estimation using the front-facing camera during natural use of tablets, where the posture and method of holding the tablet is not constrained. We collected the first large unconstrained gaze dataset of tablet users, labeled Rice TabletGaze dataset. The dataset consists of 51 subjects, each with 4 different postures and 35 gaze locations. Subjects vary in race, gender and in their need for prescription glasses, all of which might impact gaze estimation accuracy. Driven by our observations on the collected data, we present a baseline algorithm for automatic gaze estimation using multi-level HoG feature and Random Forests regressor. The TabletGaze algorithm achieves a mean error of 3.17 cm. We perform extensive evaluation on the impact of various factors such as dataset size, race, wearing glasses and user posture on the gaze estimation accuracy and make important observations about the impact of these factors.

研究动机与目标

解决在自然、非约束性使用场景下，移动平板电脑上未经校准的基于外观的眼动估计挑战。
收集大规模、多样化的数据集，以捕捉用户姿势、种族、性别以及是否佩戴矫正镜片等真实世界中的变化。
开发一种基线算法，能够在无需用户特定校准的情况下，泛化于不同的人口统计和姿势差异。
评估数据集规模、种族、佩戴眼镜以及姿势对眼动估计准确率的影响。

提出的方法

使用平板设备的前置摄像头，从51名受试者中收集了在4种不同姿势和35个注视位置下的眼动数据。
使用多层级方向梯度直方图（HOG）特征，从眼部区域图像中提取空间和纹理模式。
在HOG特征上训练随机森林回归器，以预测相对于平板屏幕的眼动位置（单位：厘米）。
设计数据集以反映真实世界中的多样性，包括佩戴和未佩戴矫正镜片的用户，以及多样化的种族和性别背景。
采用多尺度HOG方法，以捕捉眼部外观的局部和全局特征，从而提升回归性能。
在不同条件下评估模型，包括不同数据集规模和用户子群体，以评估其鲁棒性和泛化能力。

实验结果

研究问题

RQ1在非约束性平板使用场景下，不同用户姿势对眼动估计准确率有何影响？
RQ2在非约束性设置中，种族和性别多样性对眼动估计性能有何影响？
RQ3佩戴矫正镜片如何影响眼动估计准确率？模型能否在该子群体中实现良好泛化？
RQ4实现稳定性能所需的最小数据集规模是多少？
RQ5在本场景下，多层级HOG特征与随机森林回归相比其他特征工程和学习方法表现如何？

主要发现

TabletGaze算法在Rice TabletGaze数据集上实现了3.17厘米的平均眼动估计误差，表明其在非约束性条件下具有优异性能。
用户姿势显著影响估计准确率，某些姿势因遮挡和视角变化导致误差升高。
模型在不同种族和性别群体中表现出鲁棒性，但观察到轻微的性能差异，凸显了使用多样化训练数据的必要性。
佩戴矫正镜片的用户表现出略高的眼动估计误差，表明需要改进对镜片反光和眼形失真的建模。
增加数据集规模可提升模型性能，但在某一阈值后收益递减，表明数据利用效率较高。
多层级HOG特征表示优于单尺度特征，尤其在捕捉用户间细微的眼部外观差异方面表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。