QUICK REVIEW

[論文レビュー] Predicting Video Saliency with Object-to-Motion CNN and Two-layer Convolutional LSTM

Lai Jiang, Mai Xu|arXiv (Cornell University)|Sep 19, 2017

Visual Attention and Saliency Detection参考文献 66被引用数 72

ひとこと要約

本論文は、オブジェクト性、運動、フレーム間のサリエンシー遷移を共同でモデル化することで、ピクセルレベルの動画サリエンシーを予測する深層学習フレームワーク（OM-CNN with 2C-LSTM）を提案し、新しい LEDOV データセットで訓練する。

ABSTRACT

Over the past few years, deep neural networks (DNNs) have exhibited great success in predicting the saliency of images. However, there are few works that apply DNNs to predict the saliency of generic videos. In this paper, we propose a novel DNN-based video saliency prediction method. Specifically, we establish a large-scale eye-tracking database of videos (LEDOV), which provides sufficient data to train the DNN models for predicting video saliency. Through the statistical analysis of our LEDOV database, we find that human attention is normally attracted by objects, particularly moving objects or the moving parts of objects. Accordingly, we propose an object-to-motion convolutional neural network (OM-CNN) to learn spatio-temporal features for predicting the intra-frame saliency via exploring the information of both objectness and object motion. We further find from our database that there exists a temporal correlation of human attention with a smooth saliency transition across video frames. Therefore, we develop a two-layer convolutional long short-term memory (2C-LSTM) network in our DNN-based method, using the extracted features of OM-CNN as the input. Consequently, the inter-frame saliency maps of videos can be generated, which consider the transition of attention across video frames. Finally, the experimental results show that our method advances the state-of-the-art in video saliency prediction.

研究の動機と目的

十分な訓練データを用いた深層学習による正確な動画サリエンシー予測を動機づける。
動画内で物体と運動が人間の注意を惹起する役割を分析する。
フレーム内サリエンシーとフレーム間サリエンシー遷移をモデル化するアーキテクチャを開発する。
訓練と評価を支援する大規模な視線追跡動画データベース（LEDOV）を提供する。

提案手法

オブジェクトネスとモーションの2つのサブネットを持つ OM-CNN を提案し、オブジェクトネスがモーション特徴抽出を導く。
粗いオブジェクトネスマップでモーション特徴をマスクして物体領域に焦点を当てる。
オブジェクトネスの空間特徴とモーションの時間特徴を結合して、サリエンシー予測の時空特徴を形成する。
ベイズドロップアウトを用いた Two-layer Convolutional LSTM (2C-LSTM) を開発し、フレーム間のピクセル単位サリエンシー遷移を予測する。
2C-LSTM の出力からフレームごとのサリエンシーマップを生成するために2つのデコンボリューション層を使用する。
LEDOV データ上でエンドツーエンドに訓練し、固定されたサリエンシー分布を仮定せずに動的サリエンシーを学習する。

実験結果

リサーチクエスチョン

RQ1統合された OM-CNN でオブジェクトネスとモーションを統合することで、フレーム内サリエンシー予測は改善されるか？
RQ2ベイズドロップアウトを備えた畳み込み LSTM アーキテクチャは、動画フレーム間の時間的サリエンシー遷移を捉えられるか？
RQ3従来手法と比較して、物体領域と運動手が動画サリエンシー予測に与える影響はどの程度か？
RQ4大規模LEDOV視線追跡データベースは、動画サリエンシーモデルの学習と評価をどのように支援するか？

主な発見

提案された OM-CNN は、オブジェクトネスとモーションを効果的に統合してフレーム内サリエンシーを予測します。
2C-LSTM による時系列モデリングは、フレーム間のサリエンシー遷移を捉えます。
サリエンシー予測の不確実性を扱うため、2C-LSTM にベイズドロップアウトを使用します。
LEDOV は訓練と分析のための大規模で多様な動画視線追跡データセットを提供します。
著者の実験によれば、本手法は動画サリエンシー予測の最先端を進展させます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。