QUICK REVIEW

[論文レビュー] End-to-End Eye Movement Detection Using Convolutional Neural Networks

Sabrina Hoppe, Andreas Bulling|arXiv (Cornell University)|Sep 8, 2016

Gaze Tracking and Assistive Technology参考文献 26被引用数 41

ひとこと要約

本論文は、手動による特徴量設計や事前セグメンテーションを不要とする、連続的な2次元視線データから同時に注視、飛躍的移動、滑らかな追従運動を検出するエンド・ツー・エンドの畳み込みニューラルネットワーク（CNN）を提案する。この手法は、1,626件の注視、2,647件の飛躍的移動、1,089件の滑らかな追従運動を含む、新規の多人参加者データセット上で最先端の性能を達成し、既存のベースラインを上回る優れた正確性を示している。

ABSTRACT

Common computational methods for automated eye movement detection - i.e. the task of detecting different types of eye movement in a continuous stream of gaze data - are limited in that they either involve thresholding on hand-crafted signal features, require individual detectors each only detecting a single movement, or require pre-segmented data. We propose a novel approach for eye movement detection that only involves learning a single detector end-to-end, i.e. directly from the continuous gaze data stream and simultaneously for different eye movements without any manual feature crafting or segmentation. Our method is based on convolutional neural networks (CNN) that recently demonstrated superior performance in a variety of tasks in computer vision, signal processing, and machine learning. We further introduce a novel multi-participant dataset that contains scripted and free-viewing sequences of ground-truth annotated saccades, fixations, and smooth pursuits. We show that our CNN-based method outperforms state-of-the-art baselines by a large margin on this challenging dataset, thereby underlining the significant potential of this approach for holistic, robust, and accurate eye movement protocol analysis.

研究の動機と目的

生の視線データストリームから注視、飛躍的移動、滑らかな追従運動の複数の眼動作品タイプを統合的・エンド・ツー・エンドで検出するための手法を開発すること。
従来の眼動作品検出手法で一般的な、手作業による特徴量設計、しきい値設定、事前セグメンテーション手順に依存しないこと。
スクリプト化されたおよび自由視聴のシーケンスを含み、すべての3つの眼動作品タイプについて真値ラベルが付与された、新規の完全にアノテート済みの多人参加者データセットを提供すること。
困難で現実的なデータセット上で提案手法を評価し、包括的な眼動作品プロトコル分析における耐性と正確性を実証すること。
深層学習を用いた自動眼動作品検出分野における今後の研究のための原則的ベンチマークを確立すること。

提案手法

本手法は、生の2次元視線データを時間的シーケンスとして処理する1次元畳み込みニューラルネットワーク（CNN）を採用し、空間的および時間的パターンをエンド・ツー・エンドで学習する。
入力視線データは、CNNに供給する前に高速フーリエ変換（FFT）を用いて周波数領域に変換され、スペクトル特徴抽出が強化される。
CNNは、各視線サンプルについて眼動作品クラス（注視、飛躍的移動、滑らかな追従運動）と関連する信頼度スコアを予測するように訓練される。
ネットワークアーキテクチャは、手動による特徴量設計やセグメンテーションを回避するように設計され、データから階層的表現を直接学習する。
モデルは、各タイムステップごとにクラス確率を出力するためのソフトマックス出力を用いた交差エントロピー損失関数を使用して訓練される。
本アプローチはシーケンス・ツー・シーケンス予測をサポートしており、明示的なデータ分割を必要とせず、リアルタイムまたはニアリアルタイムの検出が可能である。

実験結果

リサーチクエスチョン

RQ11つのディープラーニングモデルが、事前処理やセグメンテーションを経ずに、連続的な視線データから注視、飛躍的移動、滑らかな追従運動の複数の眼動作品タイプを同時に検出可能か。
RQ2CNNを用いたエンド・ツー・エンド学習は、従来のしきい値ベースやマルチステージ検出手法と比較して、正確性と耐性の面でどのように異なるか。
RQ3提案手法は、多様な参加者や自然主義的な視聴状況において、どの程度一般化可能か。
RQ4サンプル単位評価とイベントベース評価の両方の評価指標は、眼動作品検出性能の評価においてどのように異なるか。
RQ5限られたアノテート済みデータで、CNNベースのアプローチが、困難なマルチクラス眼動作品検出タスクで優れた性能を達成できるか。

主な発見

提案されたCNNベースの手法は、新規の多人参加者データセット上で、最先端のベースラインを大きく上回る性能を示し、3つの眼動作品タイプすべてにおいて優れた検出正確性を達成した。
本手法はバイナリ分類およびマルチクラス分類の両方で高い性能を発揮し、サンプル単位評価では優れた1サンプルあたりの分類正確性を示した。
イベントベース評価では、1サンプルあたりの正確性が高水準である一方で、眼動作品イベント全体の検出は依然として困難であることが明らかとなり、このタスクの複雑さが浮き彫りになった。
1,626件の注視、2,647件の飛躍的移動、1,089件の滑らかな追従運動を含む新規データセットの導入により、今後のアルゴリズム開発のための強固なベンチマークが提供された。
成功を収めたものの、生理的ばらつきや視線データ内のノイズの影響により、依然として眼動作品検出は困難な問題であると示された。
今後の改善は、記憶機構（例：RNN）を備えたアーキテクチャや、より大規模な未ラベル付きデータセットを用いた自己教師付き事前学習によって得られる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。