QUICK REVIEW

[论文解读] PupilNet v2.0: Convolutional Neural Networks for CPU based real time Robust Pupil Detection

Wolfgang Fuhl, Thiago Santini|arXiv (Cornell University)|Oct 30, 2017

Gaze Tracking and Assistive Technology被引用 44

一句话总结

PupilNet v2.0 提出了一种两阶段卷积神经网络（CNN）流水线，用于在 CPU 上实现实时、鲁棒的瞳孔检测，检测精度比最先进方法最高提升 9%。该方法首先使用轻量级浅层 CNN 进行粗略瞳孔定位，随后在小范围区域内使用高精度优化网络进行精炼，从而实现在单核 CPU 上的实时性能（7ms 推理时间），同时能够应对现实世界中诸如反光、遮挡和光照变化等挑战。

ABSTRACT

Real-time, accurate, and robust pupil detection is an essential prerequisite for pervasive video-based eye-tracking. However, automated pupil detection in realworld scenarios has proven to be an intricate challenge due to fast illumination changes, pupil occlusion, non-centered and off-axis eye recording, as well as physiological eye characteristics. In this paper, we approach this challenge through: I) a convolutional neural network (CNN) running in real time on a single core, II) a novel computational intensive two stage CNN for accuracy improvement, and III) a fast propability distribution based refinement method as a practical alternative to II. We evaluate the proposed approaches against the state-of-the-art pupil detection algorithms, improving the detection rate up to ~9% percent points on average over all data sets (~7% on one CPU core 7ms). This evaluation was performed on over 135,000 images: 94,000 images from the literature, and 41,000 new hand-labeled and challenging images contributed by this work (v1.0).

研究动机与目标

开发一种适用于现实世界环境中普遍化、无感视频眼动追踪的实时、高精度、鲁棒的瞳孔检测系统。
解决瞳孔检测中的关键挑战，包括光照变化、反光、遮挡、非轴向眼位和生理差异。
在计算成本极低的前提下实现高精度，实现无需 GPU 加速即可在标准 CPU 上部署。
在包含 13.5 万张图像的大规模多样化数据集上评估该方法，其中包含 4.1 万张新采集的、具有挑战性的现实世界样本。
公开提供训练好的模型、代码和数据，以支持可复现性及未来研究。

提出的方法

采用两阶段 CNN 流水线：首先，浅层 CNN 处理下采样后的图像块，生成粗略的瞳孔中心估计。
其次，更复杂的 CNN 在粗略估计周围的小范围局部窗口内对瞳孔位置进行精炼，从而降低噪声并减少计算负载。
提出一种基于概率分布的精炼方法，作为完整两阶段网络的轻量化替代方案，实现速度与精度的平衡。
粗略网络使用 8×8 卷积核和 8×8 池化（CK8P8），而更精确的变体则采用 8×8 卷积核与 16×16 池化（SK8P8）。
最终精炼阶段对 SK8P8 使用 21×21 搜索窗口，对 CK8P8 使用 49×49 窗口，仅在候选位置计算响应以减少计算量。
所有模型均在包含 13.5 万张图像的大规模多样化数据集上端到端训练，其中包含 4.1 万张新采集的、带有伪影的现实世界图像。

实验结果

研究问题

RQ1两阶段 CNN 流水线是否能在现实世界、具有挑战性的条件下，实现优于最先进方法的瞳孔检测精度？
RQ2此类流水线是否能在无需 GPU 加速的单核 CPU 上实现实时运行？
RQ3基于概率分布的轻量化精炼方法在精度与速度方面与完整两阶段网络相比表现如何？
RQ4所提方法在多样化现实世界眼动追踪场景中的泛化能力如何，包括反光、遮挡和光照变化？
RQ5该方法是否能在保持低计算成本的同时实现高检测精度，适用于普遍化、嵌入式眼动追踪系统？

主要发现

所提出的两阶段 CNN（F_{SK8P8}）在所有数据集上，于 5 像素误差阈值下，平均检测精度相比最佳最先进方法（ElSe）提升了约 9 个百分点。
基于 SK8P8 的方法在最具挑战性的新数据集（new V）上实现了 0.33 的 5 像素误差，显著优于 ElSe（0.57）和 ExCuSe（0.56）。
轻量化 SK8P8 变体在单核 Intel i5-4570 上仅需 7ms 运行时间，实现了在标准 CPU 上的实时性能。
F_{CKXPY} 模型在最困难数据集（XIV）上实现了最高的平均检测率（0.95），但计算成本极高（每次推理 1.2 秒）。
基于概率分布的精炼方法实现了 7ms 的推理时间，且在新 IV 数据集上 5 像素误差为 0.54，展现出优异的速度-精度权衡。
在新 I 数据集上，该方法实现了 0.62 的 5 像素误差，而基线方法 ExCuSe 为 0.22，表明在新采集的真实世界数据上具有更强的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。