QUICK REVIEW

[论文解读] End-to-End Eye Movement Detection Using Convolutional Neural Networks

Sabrina Hoppe, Andreas Bulling|arXiv (Cornell University)|Sep 8, 2016

Gaze Tracking and Assistive Technology参考文献 26被引用 41

一句话总结

本文提出一种端到端的卷积神经网络（CNN），可直接从连续的2D眼动数据中同步检测注视、扫视和平稳追踪，消除了人工特征工程和预分割步骤。该方法在包含1,626次注视、2,647次扫视和1,089次平稳追踪的新型多参与者数据集上达到最先进性能，显著优于现有基线方法。

ABSTRACT

Common computational methods for automated eye movement detection - i.e. the task of detecting different types of eye movement in a continuous stream of gaze data - are limited in that they either involve thresholding on hand-crafted signal features, require individual detectors each only detecting a single movement, or require pre-segmented data. We propose a novel approach for eye movement detection that only involves learning a single detector end-to-end, i.e. directly from the continuous gaze data stream and simultaneously for different eye movements without any manual feature crafting or segmentation. Our method is based on convolutional neural networks (CNN) that recently demonstrated superior performance in a variety of tasks in computer vision, signal processing, and machine learning. We further introduce a novel multi-participant dataset that contains scripted and free-viewing sequences of ground-truth annotated saccades, fixations, and smooth pursuits. We show that our CNN-based method outperforms state-of-the-art baselines by a large margin on this challenging dataset, thereby underlining the significant potential of this approach for holistic, robust, and accurate eye movement protocol analysis.

研究动机与目标

开发一种统一的、端到端的方法，直接从原始眼动数据流中检测多种眼动类型——注视、扫视和平稳追踪。
消除对人工设计特征、阈值设定或预分割步骤的依赖，这些在现有眼动检测方法中普遍存在。
引入一个全新的、完全标注的多参与者数据集，包含脚本化和自由观看序列，所有三种眼动类型均有真实标签。
在具有挑战性的真实数据集上评估所提方法，以证明其在整体眼动协议分析中的鲁棒性和准确性。
为未来基于深度学习的自动化眼动检测研究建立一个严谨的基准。

提出的方法

该方法采用一维卷积神经网络（CNN），将原始2D眼动数据作为时间序列处理，端到端学习空间与时间模式。
在输入CNN之前，通过快速傅里叶变换（FFT）将眼动数据转换到频域，以增强频谱特征提取。
CNN被训练以预测每个眼动样本的时间步的类别（注视、扫视、平稳追踪）及其相关置信度分数。
网络架构设计为直接从数据中学习分层表征，绕过人工特征工程与分割步骤。
使用交叉熵损失函数与Softmax输出进行模型训练，为每个时间步生成类别概率。
该方法支持序列到序列的预测，实现实时或近实时检测，无需显式的数据划分。

实验结果

研究问题

RQ1单一深度学习模型能否在不进行预处理或分割的情况下，直接从连续眼动数据中同步检测多种眼动类型——注视、扫视和平稳追踪？
RQ2与传统的基于阈值或多阶段检测方法相比，使用CNN进行端到端学习在准确率和鲁棒性方面表现如何？
RQ3所提方法在不同参与者及自然观看条件下具有多大程度的泛化能力？
RQ4在评估眼动检测性能时，样本级指标与事件级指标有何差异？
RQ5在标注数据有限的情况下，基于CNN的方法能否在具有挑战性的多类别眼动检测任务中实现更优性能？

主要发现

所提出的基于CNN的方法在新型多参与者数据集上显著优于最先进基线方法，三种眼动类型均展现出更高的检测准确率。
该方法在二分类与多分类眼动检测任务中均表现优异，样本级评估显示其具有出色的逐样本分类准确率。
事件级评估表明，尽管逐样本准确率较高，但完整眼动事件的检测仍具挑战性，凸显了该任务的复杂性。
新引入的数据集包含1,626次注视、2,647次扫视和1,089次平稳追踪，为未来算法开发提供了可靠的基准。
尽管表现优异，该方法仍因眼动数据中的生理差异与噪声而面临挑战，表明眼动检测仍是具有挑战性的问题。
结果表明，未来改进可能来自引入记忆机制的网络架构（如RNN）或在更大规模未标注数据集上进行自监督预训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。