QUICK REVIEW

[論文レビュー] Action Recognition using Visual Attention

Shikhar Sharma, Ryan Kiros|arXiv (Cornell University)|Nov 12, 2015

Human Pose and Action Recognition参考文献 33被引用数 359

ひとこと要約

この論文では、LSTMを用いたソフトアテンションベースの再帰的ニューラルネットワークを提案し、動画フレーム内の関連する空間的・時間的領域に動的に注目することで、動画行動認識を向上させることを目的としている。モデルは、選択的にアクター、物体、行動といった重要な視覚的要素に注目することで、UCF-11、HMDB-51、Hollywood2データセットにおいて解釈可能性と正確性を向上させ、非アテンションベースラインを上回る性能を発揮する。

ABSTRACT

We propose a soft attention based model for the task of action recognition in videos. We use multi-layered Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units which are deep both spatially and temporally. Our model learns to focus selectively on parts of the video frames and classifies videos after taking a few glimpses. The model essentially learns which parts in the frames are relevant for the task at hand and attaches higher importance to them. We evaluate the model on UCF-11 (YouTube Action), HMDB-51 and Hollywood2 datasets and analyze how the model focuses its attention depending on the scene and the action being performed.

研究の動機と目的

動画フレーム内の関連する空間的・時間的領域にモデルが選択的に注目できるようにすることで、動画行動認識の性能を向上させること。
バックプロパゲーションを用いてトレーニング可能で、深層RNNアーキテクチャに統合可能な微分可能でソフトなアテンションメカニズムを開発すること。
推論時におけるモデルの注目箇所を分析・可視化することで、行動認識意思決定の解釈可能性を向上させること。
アテンションベースの特徴プーリングが平均プーリングや最大プーリングを上回ることを示すこと。
失敗事例を調査し、モデルを再トレーニングせずに、僅かにゲインの位置を最適化するだけでアテンションを是正できることを示すこと。

提案手法

動画フレームから深層畳み込み特徴を抽出するためにGoogLeNetを用い、サイズD × H × Wの3次元特徴キューブを生成する。
動画内の空間的および時間的依存関係をモデル化するために、複数層の深層双方向LSTMネットワークを採用する。
空間的位置の上に微分可能なソフトマックス層を用いて、特徴マップの動的ゲインを生成するソフトアテンションメカニズムを適用する。
各ゲインからの注目特徴を用いてLSTMの隠れ状態を更新し、最終的な行動予測を生成する。
バックプロパゲーション・スルータイムを用いたエンドツーエンドトレーニングが可能な微分可能なアテンションメカニズムを実装する。
アテンション重みをランダムに初期化し、誤分類を是正するためにゲインの位置のみをファインチューニングすることで、アブレーションスタディを実施する。

実験結果

リサーチクエスチョン

RQ1RNNベースのモデルにソフトアテンションメカニズムを導入することで、非アテンションベースラインと比較して行動認識性能が向上するか？
RQ2動画行動認識モデルにおけるアテンションメカニズムは、どこに注目しているのか？また、その注目は人間の関連行動の認識と相関しているか？
RQ3サンプリングレートや動画コンテンツ（例：高速 vs. 慣性）が異なる条件下で、モデルのアテンション行動はどのように変化するか？
RQ4トレーニング後、モデル全体を再トレーニングせずに、ゲインの位置のみを最適化することでアテンションマップを是正できるか？
RQ5アテンションベースの動的プーリングが、平均プーリングや最大プーリングと比較して、行動認識タスクでより優れた性能を発揮するか？

主な発見

提案されたソフトアテンションモデルは、平均プーリングや最大プーリングを用いた非アテンションベースラインと比較して、UCF-11、HMDB-51、Hollywood2データセットで優れた性能を達成する。
モデルは、『ゴルフスイング』動画ではクラブ、ボール、選手といった意味的に関連する領域に注目するよう学習する。また『トランポリンジャンプ』の動画ではトランポリンに注目する。
一部のケースでは、キスの前触れとなる空間的領域（2人の間の空間）に注目することで、行動の予測が正しくなされる。
『サッカー・ジャグリング』動画で正しく領域に注目できない場合（例：フィールドの境界に注目）、アテンション重みのみを最適化することで、分類を是正できる。
モデルはフレームレートの変化に対しても頑健である：高速なシーケンスではゴルフボールなどのキーオブジェクトに焦点を維持するが、フレームが疎らな場合でも動きを追跡できるように適応する。
アテンションマップから、行動と文脈に応じて前景および背景の手がかりが認識に重要であることが明らかになった。たとえば『プッシュアップ』では人物に注目し、『テニススイング』ではラケットとコートに注目することで認識が可能となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。