[论文解读] Labeled pupils in the wild: A dataset for studying pupil detection in unconstrained environments
本文介绍了野外标记瞳孔数据集(Labeled Pupils in the Wild, LPW),该数据集从22名参与者中收集了66段眼区视频,采样率约为95 FPS,覆盖真实世界中的室内与室外环境,具有高质量与高帧率的特点。该数据集使在真实条件下对瞳孔检测算法进行基准测试成为可能,揭示了光照、眼镜、化妆以及分辨率限制等因素导致的显著性能下降。
We present labelled pupils in the wild (LPW), a novel dataset of 66 high-quality, high-speed eye region videos for the development and evaluation of pupil detection algorithms. The videos in our dataset were recorded from 22 participants in everyday locations at about 95 FPS using a state-of-the-art dark-pupil head-mounted eye tracker. They cover people with different ethnicities, a diverse set of everyday indoor and outdoor illumination environments, as well as natural gaze direction distributions. The dataset also includes participants wearing glasses, contact lenses, as well as make-up. We benchmark five state-of-the-art pupil detection algorithms on our dataset with respect to robustness and accuracy. We further study the influence of image resolution, vision aids, as well as recording location (indoor, outdoor) on pupil detection performance. Our evaluations provide valuable insights into the general pupil detection problem and allow us to identify key challenges for robust pupil detection on head-mounted eye trackers.
研究动机与目标
- 解决当前缺乏大规模、真实场景数据集以评估头戴式眼动追踪系统中瞳孔检测性能的问题。
- 提供一个涵盖多样化光照条件、不同种族、视力辅助工具(眼镜、隐形眼镜)以及化妆情况的基准数据集。
- 在真实世界条件下评估最先进瞳孔检测算法的性能,以识别关键性能挑战。
- 研究图像分辨率、户外与室内拍摄环境以及视力辅助工具对检测准确率的影响。
提出的方法
- 使用暗瞳头戴式眼动追踪设备,在自然的室内与室外环境中,从22名参与者中录制了66段高速眼区视频(640×480,约95 FPS)。
- 涵盖不同人口统计特征,包括不同种族、眼色、面部轮廓,以及是否佩戴眼镜或使用化妆。
- 对所有帧进行人工标注,精确标注瞳孔椭圆及其几何中心位置,以建立评估用的真实标注。
- 使用平均检测误差和累积误差分布等指标,在数据集上评估五种最先进瞳孔检测算法的性能。
- 针对分辨率(从480p降至240p)、室内与户外场景,以及是否佩戴眼镜/化妆等条件进行消融实验。
- 通过图像宽度归一化误差指标,实现在不同分辨率下的公平比较。
实验结果
研究问题
- RQ1在大规模、真实世界场景中,包含多样化光照与外观条件的数据集上,当前瞳孔检测算法的性能如何?
- RQ2户外光照(包括直射阳光与阴影)对瞳孔检测准确率有何影响?
- RQ3眼镜与化妆等视力辅助工具如何影响现有瞳孔检测方法的鲁棒性?
- RQ4瞳孔检测的最优图像分辨率是什么?性能在低分辨率下如何退化?
- RQ5瞳孔检测算法在室内与户外拍摄环境中的性能表现有何差异?
主要发现
- 在户外场景中,仅有约50%的检测结果误差在50像素以内,而室内场景中该比例为60%,表明在自然日光下性能显著下降。
- 佩戴眼镜的参与者导致所有评估算法性能明显下降,强反射与部分瞳孔遮挡是主要挑战。
- 化妆显著干扰检测,因为设计用于检测大块深色区域或强边缘的算法常将化妆误判为瞳孔。
- 等照度与梯度检测器因内部下采样至80×35,其性能在不同分辨率下保持稳定,而其他算法在低分辨率下性能下降。
- 出人意料的是,Swirski与ExCuSe在240p下的表现优于480p,表明更高分辨率可能引入噪声,反而损害性能。
- 在具有挑战性的条件下,没有一种算法在超过一半的情况下达到足够准确度,凸显了当前方法的根本性局限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。