QUICK REVIEW

[論文レビュー] TabletGaze: A Dataset and Baseline Algorithms for Unconstrained Appearance-based Gaze Estimation in Mobile Tablets.

Qiong Huang, Ashok Veeraraghavan|arXiv (Cornell University)|Aug 5, 2015

Gaze Tracking and Assistive Technology参考文献 30被引用数 18

ひとこと要約

本論文では、モバイルタブレット向けの、初めての大規模な非制約的注視推定データセット「Rice TabletGaze」を紹介し、マルチレベルHOG特徴量とランダムフォレスト回帰器を用いた「TabletGaze」アルゴリズムを提案する。自然なタブレット使用状況におけるキャリブレーションなしの条件下で、平均誤差3.17 cmを達成し、ユーザーのデモグラフィック要因や姿勢が与える影響についても広範な分析を実施した。

ABSTRACT

We study gaze estimation on tablets; our key design goal is uncalibrated gaze estimation using the front-facing camera during natural use of tablets, where the posture and method of holding the tablet is not constrained. We collected the first large unconstrained gaze dataset of tablet users, labeled Rice TabletGaze dataset. The dataset consists of 51 subjects, each with 4 different postures and 35 gaze locations. Subjects vary in race, gender and in their need for prescription glasses, all of which might impact gaze estimation accuracy. Driven by our observations on the collected data, we present a baseline algorithm for automatic gaze estimation using multi-level HoG feature and Random Forests regressor. The TabletGaze algorithm achieves a mean error of 3.17 cm. We perform extensive evaluation on the impact of various factors such as dataset size, race, wearing glasses and user posture on the gaze estimation accuracy and make important observations about the impact of these factors.

研究の動機と目的

自然で制約のない使用状況下における、キャリブレーションなしの外見ベースの注視推定の課題に取り組むこと。
ユーザーの姿勢、人種、性別、眼鏡の装用状況などの実世界の変動を捉えた大規模かつ多様なデータセットを収集すること。
ユーザー固有のキャリブレーションを必要とせず、デモグラフィック要因や姿勢の変動に一般化可能なベースラインアルゴリズムを開発すること。
データセットのサイズ、人種、眼鏡の装用、姿勢が注視推定の精度に与える影響を評価すること。

提案手法

タブレットの前面カメラを用いて、4種類の異なる姿勢と35の注視位置で、51名の被験者から注視データを収集した。
目の領域画像から空間的およびテクスチャ的パターンを抽出するために、マルチレベルの方向勾配ヒストグラム（HOG）特徴量を用いた。
HOG特徴量を入力としてランダムフォレスト回帰器を学習させ、タブレット画面からの注視位置（cm単位）を予測した。
実世界の多様性を反映させるために、眼鏡を装用している・いないユーザー、多様な人種的・性別の背景を持つユーザーを含むデータセットを設計した。
局所的およびグローバルな目の外見的特徴を捉えるために、マルチスケールHOGアプローチを採用し、回帰性能の向上を図った。
データセットサイズやユーザーのサブグループを変化させた条件でモデルを評価し、耐障害性と一般化性能を検証した。

実験結果

リサーチクエスチョン

RQ1自然なタブレット使用状況下で、異なるユーザーの姿勢に応じて注視推定の精度はどのように変化するか？
RQ2人種的・性別の多様性が、非制約的環境下での注視推定性能にどのような影響を与えるか？
RQ3眼鏡の装用が注視推定精度に与える影響は何か？また、このサブグループに一般化できるか？
RQ4本アルゴリズムで安定した性能を達成するために必要な最小データセットサイズはどの程度か？
RQ5マルチレベルHOG特徴量とランダムフォレスト回帰は、この文脈において他の特徴工学的手法や学習アプローチと比較して、どのように優れているか？

主な発見

TabletGazeアルゴリズムは、Rice TabletGazeデータセット上での注視推定において、平均誤差3.17 cmを達成し、非制約的条件下でも優れた性能を示した。
ユーザーの姿勢が推定精度に顕著に影響を与え、遮蔽や視点の変化により特定の姿勢で誤差が大きくなる傾向が見られた。
人種的・性別グループにわたってモデルの耐障害性が確認されたが、わずかな性能差が観察されたことから、多様な訓練データの重要性が浮き彫りになった。
眼鏡を装用するユーザーはやや高い推定誤差を示しており、レンズの反射や目の形状の歪みをより良くモデル化する必要があることを示唆している。
データセットサイズの増加に伴いモデル性能が向上したが、ある閾値を超えると収益の減少が見られたことから、データの効率的利用が可能であることが示された。
マルチレベルHOG特徴表現は、単一スケールの特徴量よりも優れており、特にユーザー間での微細な目の外見的変化を捉える点で優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。