QUICK REVIEW

[論文レビュー] Computational models: Bottom-up and top-down aspects

Laurent Itti, Ali Borji|arXiv (Cornell University)|Oct 27, 2015

Visual Attention and Saliency Detection参考文献 125被引用数 33

ひとこと要約

本稿は、視覚的注意の計算モデルについて包括的な分析を提示し、刺激駆動型（ボトムアップ）と目的指向型（トップダウン）の誘導メカニズムの違いを明らかにしている。視覚的注目度マップが眼動画を予測する役割を果たすことに注目し、モデル評価のためのベンチマークデータセットをレビューし、人間と機械の注意の間の主なギャップとして3D＋時間的シーン理解を特定している。

ABSTRACT

Computational models of visual attention have become popular over the past decade, we believe primarily for two reasons: First, models make testable predictions that can be explored by experimentalists as well as theoreticians, second, models have practical and technological applications of interest to the applied science and engineering communities. In this chapter, we take a critical look at recent attention modeling efforts. We focus on {\em computational models of attention} as defined by Tsotsos \& Rothenstein \shortcite{Tsotsos_Rothenstein11}: Models which can process any visual stimulus (typically, an image or video clip), which can possibly also be given some task definition, and which make predictions that can be compared to human or animal behavioral or physiological responses elicited by the same stimulus and task. Thus, we here place less emphasis on abstract models, phenomenological models, purely data-driven fitting or extrapolation models, or models specifically designed for a single task or for a restricted class of stimuli. For theoretical models, we refer the reader to a number of previous reviews that address attention theories and models more generally \cite{Itti_Koch01nrn,Paletta_etal05,Frintrop_etal10,Rothenstein_Tsotsos08,Gottlieb_Balan10,Toet11,Borji_Itti12pami}.

研究の動機と目的

誘導メカニズムに焦点を当て、視覚的注意の計算モデルを批判的に評価すること。
刺激駆動型（ボトムアップ）と目的指向型（トップダウン）の注意モデルの違いを明確にすること。
眼動画データをモデル評価のベンチマークとして使用する有効性と限界を評価すること。
特に複雑で動的な環境において、人間のような注意をモデル化する上で残された課題を特定すること。
人間と機械の注意のギャップを埋めるために、高度なシーン理解（3D＋時間）の必要性を強調すること。

提案手法

視覚的刺激を処理し、人間や動物の行動的・生理的反応を予測するシステムとして、計算的注意モデルの定義を用いる。
特徴に基づく計算を用いて画像を空間的な視覚的注目度マップに変換する注目度マップモデルに焦点を当てる。
眼動画記録（例：Judd et al., 2009; Borji et al., 2012b）を含むベンチマークデータセットを用いて、定量的なモデル比較を行う。
AUC、CC、NSSなどの指標を用いてモデルのパフォーマンスを分析し、予測結果と人間の注視パターンを比較する。
アクティブビジョンおよびロボット工学システムを統合し、注目度マップがスキャンパスやタスク指向のショックをどのように導くかをモデル化する。
特にタスク文脈におけるショックの順序とタイミングの時間的ダイナミクスを検討し、モデルがスキャンパスの順序とタイミングを予測する能力を評価する。

実験結果

リサーチクエスチョン

RQ1ボトムアップおよびトップダウンの注意メカニズムは、計算的実装および行動的影響においてどのように異なるか？
RQ2注目度マップモデルは、静的および動的視覚刺激において、どの程度人間の眼動画を予測できるか？
RQ3眼動画データを注意モデルのゴールドスタンダードとして使用する際の限界は何か？
RQ4タスク文脈がショックの順序とタイミングに与える影響は何か？また、モデルはその影響を捉えることができるか？
RQ53Dシーンの幾何構造と時間的イベント理解は、人間と機械の注意のパフォーマンスギャップを埋めるために、どのような役割を果たすか？

主な発見

ボトムアップモデル、特に注目度マップに基づくモデルは、タスクフリーで刺激駆動の性質を有するため、より発展しており、検証が容易である。
注目度マップモデルはベンチマークデータセットで優れたパフォーマンスを発揮しており、最先端のモデルは標準データセットでAUCスコア0.8以上を達成している。
眼動画に基づく評価指標（例：AUC、CC）は確立されているが、データセットのアーチファクトに偏りやすく、内省的注意と外見的注意の区別に失敗する可能性がある。
タスク文脈ではトップダウンの影響が支配的であるが、初期のシーン解析やターゲットの局所化においてもボトムアップ処理は不可欠である。
残された最大のギャップは、3Dシーンの幾何構造と時間的イベント理解をモデル化することにあり、これは複雑な人間の行動（例：サンドイッチの作成）を模倣する上で不可欠である。
スキャンパスの順序が予測困難な自由視聴状況とは異なり、タスク駆動の状況（例：運転、調理）では、順序付きスキャンパスのモデリングがより情報をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。