QUICK REVIEW

[論文レビュー] TurkerGaze: Crowdsourcing Saliency with Webcam based Eye Tracking

Pingmei Xu, Krista A. Ehinger|arXiv (Cornell University)|Apr 25, 2015

Visual Attention and Saliency Detection参考文献 29被引用数 261

ひとこと要約

本稿では、アマゾン・メカニカル・ターキュのウェブカメラを活用して、大規模かつ高品質な注目度データを収集するためのクラウドソーシング型眼動追跡システム「TurkerGaze」を提案する。ゲーム化されたインターフェースに眼動追跡を統合することで、大幅に低コストかつ低作業負荷でラボ水準の精度を達成でき、1枚あたり3名の観察者を有する20,608枚の自然シーン画像から構成される大規模な注目度データセットiSUNの構築を可能にした。

ABSTRACT

Traditional eye tracking requires specialized hardware, which means collecting gaze data from many observers is expensive, tedious and slow. Therefore, existing saliency prediction datasets are order-of-magnitudes smaller than typical datasets for other vision recognition tasks. The small size of these datasets limits the potential for training data intensive algorithms, and causes overfitting in benchmark evaluation. To address this deficiency, this paper introduces a webcam-based gaze tracking system that supports large-scale, crowdsourced eye tracking deployed on Amazon Mechanical Turk (AMTurk). By a combination of careful algorithm and gaming protocol design, our system obtains eye tracking data for saliency prediction comparable to data gathered in a traditional lab setting, with relatively lower cost and less effort on the part of the researchers. Using this tool, we build a saliency dataset for a large number of natural images. We will open-source our tool and provide a web server where researchers can upload their images to get eye tracking results from AMTurk.

研究の動機と目的

従来のラボベース眼動追跡による注目度データ収集の高コストとスケーラビリティの限界を解決すること。
制御不能な環境下でも信頼性が保証される、ブラウザベースのウェブカメラ眼動追跡システムを構築すること。
専門的な訓練なしで参加者が正確な眼動データを提供できるように、モチベーションを高めるゲーム化インターフェースを設計すること。
クラウドソーシング参加者を活用して、自然シーンの自由視聴状態における大規模な注目度データセットを収集すること。
クラウドソーシングによる眼動データの品質をゴールスタンダードのラボデータと比較し、注目度モデルのベンチマークを実施すること。

提案手法

メカニカル・ターキュの作業者から眼動データを収集するため、ブラウザベースのゲーム内にウェブカメラベース眼動追跡システムを導入すること。
眼の画像から眼動を予測するための外見ベースの眼動推定法を採用し、適応的線形回帰を用いてキャリブレーションの必要を最小限に抑えること。
持続的な注意を促し、正確な注視位置報告を促す2つのゲームシナリオ（「ターゲットを探す」および「違いを探せ」）を設計すること。
合成トレーニングデータとスパarsなキャリブレーションポイントを用いて、頭部の動きや照明の変動を補正するリアルタイム眼動推定パイプラインを適用すること。
1枚の画像あたり複数名の参加者から得た眼動データを集約し、頑健な注目度マップを生成し、オブジェクト／シーンの完全なアノテーションを備えたiSUNデータセットを構築すること。
AUC、正確度、再現度、およびラボデータとの注視位置分布類似度といった標準的な指標を用いて、性能を評価すること。

実験結果

リサーチクエスチョン

RQ1アマゾン・メカニカル・ターキュのようなクラウドソーシングプラットフォーム上でウェブカメラベース眼動追跡を実施することで、従来のラボベース眼動追跡と同等の品質の注目度データを収集できるか？
RQ2TurkerGazeを用いて収集した眼動データは、ゴールスタンダードのラボデータと比較して、注視位置の正確性および分布の観点からどのように定量的に評価できるか？
RQ3TurkerGazeによるクラウドソーシング眼動データは、注目度予測モデルの学習および評価にどの程度活用可能か？
RQ4メカニカル・ターキュ参加者の文化的・行動的多様性が、収集された眼動データの信頼性および一般化可能性にどのように影響するか？
RQ5本稿で提案するシステムは、自由視聴自然シーンにとどまらず、他の視覚的刺激およびタスクにも一般化可能か？

主な発見

TurkerGazeシステムは、従来のラボベース眼動追跡と同等の眼動予測精度を達成し、注視位置推定における平均絶対誤差は1.05°であった。
TurkerGazeで収集した注視位置分布は、ラボデータよりも中心に寄っている傾向を示しており、視聴行動の違いや画像提示方法の差が要因である可能性がある。
AMTurkデータを用いたleave-one-out AUCは、Juddラボデータよりも低く、クラウドソーシングデータに位置ずれのノイズがより顕著に現れていることを示している。
ノイズが存在するにもかかわらず、TurkerGazeデータから導出された注目度マップは、最先端の計算モデルと同等のAUCスコアを達成しており、学習および評価用途における実用性を示している。
TurkerGazeを用いて構築されたiSUNデータセットには、20,608枚の完全にアノテート済みの自然シーン画像が含まれており、1枚あたり平均3名の観察者が関与しており、これまでに構築された最大規模の自由視聴注目度データセットである。
本システムはキャリブレーションの必要性を著しく低減し、標準的なコンsumerハードウェアでもリアルタイム眼動追跡を実現した。これにより、スケーラブルなデータ収集が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。