QUICK REVIEW

[論文レビュー] Crowdsourcing Gaze Data Collection

Dmitry Rudoy, Dan B Goldman|arXiv (Cornell University)|Apr 16, 2012

Visual Attention and Saliency Detection参考文献 5被引用数 19

ひとこと要約

本稿では、動画再生後に一時的に表示される文字表を用いて参加者に自らの注視位置を報告してもらうことで、大規模な参加者プールから低コストでクラウドソーシングされた注視方向データを収集する手法を提案する。応答を表のレイアウトと照合し、結果をヒートマップに集約することで、従来のハードウェア追跡と同等の精度の注視データを実現し、制御不能な視聴環境下でもスケーラブルでグローバルに分散した注視研究を可能にする。

ABSTRACT

Knowing where people look is a useful tool in many various image and video applications. However, traditional gaze tracking hardware is expensive and requires local study participants, so acquiring gaze location data from a large number of participants is very problematic. In this work we propose a crowdsourced method for acquisition of gaze direction data from a virtually unlimited number of participants, using a robust self-reporting mechanism (see Figure 1). Our system collects temporally sparse but spatially dense points-of-attention in any visual information. We apply our approach to an existing video data set and demonstrate that we obtain results similar to traditional gaze tracking. We also explore the parameter ranges of our method, and collect gaze tracking data for a large set of YouTube videos.

研究の動機と目的

大規模で多様な参加者プールからの注視データ収集において、従来の注視追跡ハードウェアの高コストとスケーラビリティの限界を解消すること。
標準的なウェブブラウザとインターネット接続のみを用いて、参加者数に制限のない注視位置データの収集を可能にすること。
特別な機器を必要とせず、データの信頼性と空間的正確性を保証する堅牢な自己報告メカニズムの開発。
自己報告による注視データが、ラボベースの注視追跡システムと統計的に同等の結果を達成できることの検証。
多様な年齢層や視聴環境を想定した大規模な動画分析に、クラウドソーシングされた注視データを用いる可能性の検討。

提案手法

参加者に $t_v$ 秒間の動画クリップを再生後、直ちに文字表（$t_c$ 秒間）を表示する。文字表にはグリッド上に配置された一意な記号3つ組みが配置されている。
参加者は最もはっきりと見た記号3つ組みを報告し、システムはその記号の既知のスクリーン座標を推定注視点としてマッピングする。
表のレイアウトを用いて不正な応答（誤った入力やランダム入力など）を検出し、データ品質を向上させる。
注意散漫や不注意な参加者を除外するために、承認半径 $R_a$ を用いたチュートリアルフェーズを導入し、全体のデータ信頼性を向上させる。
複数参加者の注視位置を確率密度関数に集約し、ヒートマップとして可視化することで注視のホットスポットを示す。
記号の空間的分布を制御するための三つ組密度 $D_r$ を用い、クラスタリングを低減し、空間分解能を向上させる。

実験結果

リサーチクエスチョン

RQ1単純なウェブインターフェースを通じて収集された自己報告注視データは、従来のハードウェア注視追跡と同等の精度に達するか？
RQ2制御不能な現実世界の視聴環境下における、クラウドソーシング手法の性能はラボ制御環境と比較してどのように変化するか？
RQ3チュートリアルベースのスクリーニングと応答検証が、大規模な注視データ収集中のデータ品質をどの程度向上できるか？
RQ4時間的疎らさの高い注視サンプルであっても、この手法が動的動画刺激における注視パターンを信頼性を持って捉えられるか？
RQ5クラウドソーシングで収集された注視分布は、制御されたラボ実験の結果とどの程度代表的か？

主な発見

クラウドソーシング手法により得られた注視ヒートマップは、従来のハードウェア注視追跡と統計的に同等であり、時間分解能が低いにもかかわらずその正確性が検証された。
10回のチュートリアル試行のうち2回しか合格しなかった参加者でさえも、高品質な注視データを提供した。これは、チュートリアルメカニズムが注視位置への注意を効果的に促進していることを示している。
一意な三つ組みを備えた文字表の使用により、注視点の正確な空間マッピングが可能になり、不正応答の自動検出も可能になった。
本手法は、スクリーン解像度、明るさ、視聴距離の違いを含む多様な視聴環境に対しても頑健であるが、ラボ環境と比較してばらつきが生じた。
本システムは、大規模なYouTube動画セットの注視データを効果的に収集でき、従来の方法では不可能なグローバルな人口統計的相関分析を可能にした。
研究では、注視パターンがスクリーンコントラストや周囲の照明条件に顕著に依存することが判明し、生態的妥当性とデータの一貫性の間のトレードオフが浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。