[論文レビュー] Recurrent Mixture Density Network for Spatiotemporal Visual Attention
本論文は RMDN を提案する。3D-CNN 特徴、LSTM バックボーン、Gaussian Mixture Network を用いて人間のようなビデオ視線を予測する時空間的サリエンシー模型であり、サリエンシー予測とアクション認識の性能を both 改善する。
In many computer vision tasks, the relevant information to solve the problem at hand is mixed to irrelevant, distracting information. This has motivated researchers to design attentional models that can dynamically focus on parts of images or videos that are salient, e.g., by down-weighting irrelevant pixels. In this work, we propose a spatiotemporal attentional model that learns where to look in a video directly from human fixation data. We model visual attention with a mixture of Gaussians at each frame. This distribution is used to express the probability of saliency for each pixel. Time consistency in videos is modeled hierarchically by: 1) deep 3D convolutional features to represent spatial and short-term time relations and 2) a long short-term memory network on top that aggregates the clip-level representation of sequential clips and therefore expands the temporal domain from few frames to seconds. The parameters of the proposed model are optimized via maximum likelihood estimation using human fixations as training data, without knowledge of the action in each video. Our experiments on Hollywood2 show state-of-the-art performance on saliency prediction for video. We also show that our attentional model trained on Hollywood2 generalizes well to UCF101 and it can be leveraged to improve action classification accuracy on both datasets.
研究の動機と目的
- ビデオ内の視覚的注意を動機づけ、分析時の気を散らす情報をフィルタリングする。
- アクションラベルなしで人間の固定点データから直接訓練された時空間サリエンシ predictors を開発する。
- clip レベルの 3D CNN 特徴と LSTM ベースの時間的集約を活用してフレーム単位のサリエンシーマップを生成する。
- 予測されたサリエンシーマップが下流のアクション認識性能を改善することを示す。
- Hollywood2 で最先端のサリエンシー予測を実現し、UCF101 への一般化を評価する。
提案手法
- 各ビデオクリップ(16 フレーム)を 3D-CNN 特徴(C3D)で表現する。
- LSTM を用いてクリップ表現を時間的に集約し、長期的な時間的一貫性を確保する。
- サリエンシーを Gaussian Mixture Model として予測し、GMM パラメータを LSTM からの Dense 層で生成する(MDN)。
- 人間の固定データを用いた最大尤度によりネットワークを訓練し、時間的バックプロパゲーションを行う。
- テスト時には GMM ベースのサリエンシーマップを正規化してピクセルごとの確率分布とする。
- サリエンシーをソフトアテンションとして活用し、ビデオのピクセル(または特徴量)を重み付けして、文脈とサリエンシー重み付き表現の連結と線形 SVM 分類器によるアクション認識を改善する。
実験結果
リサーチクエスチョン
- RQ1ビデオの視線データを用いてアクションラベルなしで深層再帰モデルが時空間的な人間サリエンシーを予測できるか。
- RQ23D-CNN クリップ表現と LSTM および MDN を統合して Hollywood2 で最先端のサリエンシー予測を実現できるか。
- RQ3予測されたサリエンシーマップが Hollywood2 のアクション認識性能を改善し、UCF101 への一般化が可能か。
主な発見
| モデル | フレームあたりの Fixation | AUC | NSS | CC | Sim |
|---|---|---|---|---|---|
| Trained Central Bias | 150 | 0.8725 | 1.7646 | 0.5297 | 0.4812 |
| RMDN RNN(128) | 80 | 0.8745 | 1.9505 | 0.5495 | 0.4962 |
| RMDN LSTM(128) | 80 | 0.8866 | 2.0155 | 0.4606 | 0.4219 |
| RMDN LSTM(256) | 150 | 0.8986 | 2.5169 | 0.6007 | 0.5278 |
| RMDN full LSTM(256) | 150 | 0.9037 | 2.6455 | 0.6129 | 0.5349 |
- RMDN は Hollywood2 で訓練された中心偏りベースラインを AUC、NSS、CC、Sim の全指標で上回る。
- LSTM ベースの再帰 MDN は RNN ベースラインよりサリエンシー予測精度が高く、フレームあたりのより多くの fixation の恩恵を受ける。
- 20 個の GMM コンポーネントを持つフル RMDN は Hollywood2 で最先端のサリエンシー結果を達成(AUC 0.9037、NSS 2.6455、CC 0.6129、Sim 0.5349)。
- 予測時のサリエンシー推論は速く、16 フレームクリップあたり GPU 上で 0.08 s。
- Ground-truth のサリエンシーマップと予測マップは、Hollywood2 のアクション認識でソフトアテンションとして使用した場合に改善をもたらす(サリエンシー重み付き特徴の連結による平均 mAP の改善)。
- UCF101 では C3D 特徴とサリエンシー重み付き特徴を組み合わせることで性能を向上させ、文脈のみの場合と比べ約 1.1% の改善を示し、中央偏りを追加するとさらなる改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。