QUICK REVIEW

[論文レビュー] Revisiting Video Saliency: A Large-scale Benchmark and a New Model

Wenguan Wang, Jianbing Shen|arXiv (Cornell University)|Jan 23, 2018

Visual Attention and Saliency Detection参考文献 63被引用数 42

ひとこと要約

DHF1Kを導入した、1K本の動画と600K超フレームを含む大規模ダイナミックサリエンシデータセットと、静的アテンションを教師付きで活用してダイナミック動画のサリエンシ予測を改善する注意機構付きCNN-LSTMモデルを提案。

ABSTRACT

In this work, we contribute to video saliency research in two ways. First, we introduce a new benchmark for predicting human eye movements during dynamic scene free-viewing, which is long-time urged in this field. Our dataset, named DHF1K (Dynamic Human Fixation), consists of 1K high-quality, elaborately selected video sequences spanning a large range of scenes, motions, object types and background complexity. Existing video saliency datasets lack variety and generality of common dynamic scenes and fall short in covering challenging situations in unconstrained environments. In contrast, DHF1K makes a significant leap in terms of scalability, diversity and difficulty, and is expected to boost video saliency modeling. Second, we propose a novel video saliency model that augments the CNN-LSTM network architecture with an attention mechanism to enable fast, end-to-end saliency learning. The attention mechanism explicitly encodes static saliency information, thus allowing LSTM to focus on learning more flexible temporal saliency representation across successive frames. Such a design fully leverages existing large-scale static fixation datasets, avoids overfitting, and significantly improves training efficiency and testing performance. We thoroughly examine the performance of our model, with respect to state-of-the-art saliency models, on three large-scale datasets (i.e., DHF1K, Hollywood2, UCF sports). Experimental results over more than 1.2K testing videos containing 400K frames demonstrate that our model outperforms other competitors.

研究の動機と目的

ダイナミック（動画）サリエンシの標準化された大規模ベンチマークを、さまざまなシーン・動作・視線注釈とともに作成する。
supervised attention 機構を組み込んだCNN-LSTMベースの動画サリエンシモデルを提案し、静的固定データを活用する。
複数のベンチマークにわたって最先端の動画サリエンシモデルを分析・比較し、今後の研究のためのベースラインと洞察を確立する。

提案手法

DHF1Kを提案する。1,000本の動画（582,605フレーム）で、17名の観察者によるフレームごとの fixation を含み、より深い視線分析のためのカテゴリおよび属性注釈を提供するデータセット。
CNNがフレーム内の静的特徴を抽出し、アテンションモジュールが特徴マップに教師付き静的サリエンシを注入し、convLSTMが時間的サリエンシのダイナミクスをモデル化する、注意機構付きCNN-LSTMアーキテクチャを開発する。
convLSTMからの1x1畳み込みベースの時間マップを用いてダイナミックサリエンシ予測を生成し、アテンション誘導の残差接続で豊かな空間情報を保持する。
静的サリエンシ予測と動的サリエンシ予測を共同最適化するために、KLダイバージェンス、線形相関係数(CC)、およびNSSベースの項を組み合わせた損失関数を組み込む。
混合プロトコルでトレーニングする：静的データ上の静的アテンション監視、動的データ上の動画監視を組み合わせ、DHF1Kで600/100/300の訓練/検証/テスト分割、Hollywood-2およびUCF Sportsの同等の分割を使用する。
AUC-Judd、SIM、s-AUC、CC、NSSなどの標準サリエンシ指標を3つのベンチマーク（DHF1K、Hollywood-2、UCF Sports）で報告する。

Figure 1: Average annotation maps of three datasets used in benchmarking: (a) Hollywood-2, (b) UCF sports, (c) DHF1K.

実験結果

リサーチクエスチョン

RQ1静的サリエンシデータを活用した教師付きアテンション機構は、ダイナミック動画サリエンシ予測を改善できるか。
RQ2アテンションモジュールを含むCNN-LSTMフレームワークは、大規模で制約の少ない動画データセットにおいて、既存のダイナミックサリエンシモデルを上回るか。
RQ3提案モデルは多様なデータセット（DHF1K、Hollywood-2、UCF Sports）と異なる学習構成でどの程度一般化できるか。
RQ4異なる学習データ量を用いた場合、ダイナミックサリエンシ性能にどのような影響があるか。

主な発見

DHF1Kは、ダイナミックな自由視聴向けの最大級のアイ・トラッキングデータセットで、1,000本の動画と582,605フレームを含み、一般化とベンチマークの改善を目的として設計された。
注意機構付きCNN-LSTMモデルは、DHF1K、Hollywood-2、UCF Sportsの複数指標で最先端のダイナミックサリエンシモデルを一貫して上回る。
教師付き静的アテンションモジュールを組み込むことで空間的特徴表現が改善され、光学フローを必要とせずに時間的サリエンシ学習を支援する。
大規模データでのトレーニングは性能を向上させるが、データの多様性が重要である（例：UCF Sportsはより小さく多様性の少ないトレーニングセットで恩恵を受ける）。
このアプローチはフレームごとの推論を高速化し（約0.08秒/224x224フレーム）、追加の前処理/後処理なしのエンドツーエンド学習の恩恵を受ける。

Figure 2: Example frames from DHF1K with fixations (red dots) and corresponding categories.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。