QUICK REVIEW

[論文レビュー] Eye Tracking for Everyone

Kyle Krafka, Aditya Khosla|arXiv (Cornell University)|Jun 18, 2016

Gaze Tracking and Assistive Technology参考文献 39被引用数 72

ひとこと要約

本論文では、クラウドソーシングを用いて収集された1450名の被験者を含む大規模な眼動追跡データセットGazeCaptureを紹介するとともに、モバイルデバイス上でリアルタイムかつキャリブレーション不要な視線予測を可能にする深層畳み込みニューラルネットワークiTrackerを提案する。モデルはスマートフォンでは1.71cm、タブレットでは2.53cmの平均誤差を達成し、エンド・ツー・エンド学習と多様で大規模なデータからの一般化により、先行手法を上回る性能を発揮する。

ABSTRACT

From scientific research to commercial applications, eye tracking is an important tool across many domains. Despite its range of applications, eye tracking has yet to become a pervasive technology. We believe that we can put the power of eye tracking in everyone's palm by building eye tracking software that works on commodity hardware such as mobile phones and tablets, without the need for additional sensors or devices. We tackle this problem by introducing GazeCapture, the first large-scale dataset for eye tracking, containing data from over 1450 people consisting of almost 2.5M frames. Using GazeCapture, we train iTracker, a convolutional neural network for eye tracking, which achieves a significant reduction in error over previous approaches while running in real time (10-15fps) on a modern mobile device. Our model achieves a prediction error of 1.71cm and 2.53cm without calibration on mobile phones and tablets respectively. With calibration, this is reduced to 1.34cm and 2.12cm. Further, we demonstrate that the features learned by iTracker generalize well to other datasets, achieving state-of-the-art results. The code, data, and models are available at http://gazecapture.csail.mit.edu.

研究の動機と目的

専用のハードウェアやキャリブレーションを必要としない、眼動追跡の広範な利用を可能にすること。
強固な深層学習モデルを訓練するための、大規模かつ多様な眼動追跡データセットの不足を解消すること。
一般化されたモバイルデバイス上で効率的に動作するリアルタイムかつ高精度な視線予測システムを開発すること。
大規模モデルから学習された深層特徴が、ユーザー固有の微調整なしに他のデータセットへもうまく一般化されることを示すこと。

提案手法

スマートフォンを用いて1450名の被験者からクラウドソーシングで眼動追跡データを収集し、多様な年齢層、照明条件、頭部の動きをカバーする。
眼および顔領域のクロップを入力とし、視線方向をエンド・ツー・エンドに予測する畳み込みニューラルネットワークiTrackerを訓練する。
大規模なiTrackerモデルを、モバイルデバイス上でリアルタイム推論（10–15fps）が可能な小型で高速なバージョンに圧縮するための知識蒸留を適用する。
手動で設計された特徴に依存せずに、空間的局在化の向上とモデルのロバスト性を高めるために、顔グリッド表現を用いる。
一般化性能を評価するために、ドメイン内（GazeCapture）およびドメイン外（TabletGaze, MPIIGaze）の両方のデータセットを用いてモデル性能を評価する。
キャリブレーションあり・なしの両状態で、平均誤差（cm単位）を用いた指標を用いて、最先端手法と比較する。

実験結果

リサーチクエスチョン

RQ1クラウドソーシングで収集された大規模かつ多様な眼動追跡データセットは、モバイルデバイス上で正確かつキャリブレーション不要な視線予測を可能にするか？
RQ2大規模データを用いたエンド・ツー・エンドの深層学習は、従来のモデルベースや外観ベースの手法と比較して、視線予測精度をどの程度向上させるか？
RQ3深層ニューラルネットワークが学習した特徴は、他のデータセットやハードウェアプラットフォームへどの程度一般化されるか？
RQ4データセットのサイズ（被験者数）と1名あたりのサンプル数の両者の中で、モデル性能に与える影響の相対的な寄与度は何か？

主な発見

iTrackerはキャリブレーションなしでスマートフォンでは1.71cm、タブレットでは2.53cmの平均予測誤差を達成し、先行手法を著しく上回る性能を発揮する。
キャリブレーションを施した場合、誤差はスマートフォンで1.34cm、タブレットで2.12cmにまで低下し、モデルの一般化能力の有効性が裏付けられる。
iTrackerが学習した特徴は非常に優れた一般化性能を示し、TabletGazeデータセットにおいても最先端のアプローチを上回り、2.58cmの誤差を達成する。
アブレーションスタディの結果、顔および顔グリッド入力が顕著な貢献をしていることが判明。一方で、眼の入力を除去しても性能はわずかに低下するため、より効率的なモデルの構築が可能である可能性が示唆される。
実験により、被験者数（多様性）の増加が1名あたりのサンプル数の増加よりもモデル性能に寄与することが確認され、データのばらつきの重要性が強調される。
知識蒸留を適用した後でも、モデルはモバイルデバイス上で10–15fpsのリアルタイム性能を維持し、実用的導入が可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。