QUICK REVIEW

[論文レビュー] VideoLSTM Convolves, Attends and Flows for Action Recognition

Zhenyang Li, Efstratios Gavves|arXiv (Cornell University)|Jul 6, 2016

Human Pose and Action Recognition参考文献 28被引用数 63

ひとこと要約

VideoLSTM は、畳み込み、動きに基づくアテンション、エンド・ツー・エンド学習を統合した新しい再帰的アーキテクチャを提案する。空間的畳み込みと動きに敏感なアテンションをLSTMにハードウェア的に埋め込むことで、UCF101（92.2%）およびHMDB51（72.9%）で最先端の性能を達成するとともに、ボクセル境界のアノテーションを一切使用せずに、クラスラベルのみを用いた弱教師付きアクション局在化を可能にする。

ABSTRACT

We present a new architecture for end-to-end sequence learning of actions in video, we call VideoLSTM. Rather than adapting the video to the peculiarities of established recurrent or convolutional architectures, we adapt the architecture to fit the requirements of the video medium. Starting from the soft-Attention LSTM, VideoLSTM makes three novel contributions. First, video has a spatial layout. To exploit the spatial correlation we hardwire convolutions in the soft-Attention LSTM architecture. Second, motion not only informs us about the action content, but also guides better the attention towards the relevant spatio-temporal locations. We introduce motion-based attention. And finally, we demonstrate how the attention from VideoLSTM can be used for action localization by relying on just the action class label. Experiments and comparisons on challenging datasets for action classification and localization support our claims.

研究の動機と目的

標準のLSTMがビデオをモデル化する際の制限を克服するため、空間的レイアウトや動きのダイナミクスといったビデオ固有の特性に適応したアーキテクチャの変更を行う。
ビデオシーケンスにおいて外観、動き、空間時間的局所性を統合的にモデル化し、アクション認識を向上させる。
ボクセル境界のアノテーションを一切使用せず、ビデオレベルのアクションクラスラベルのみを用いて正確なアクション局在化を実現する。
VideoLSTMにおけるアテンション機構が、弱教師付きの文脈で効果的にアクションを局在化できることを示すこと。

提案手法

2次元畳み込みをLSTMアーキテクチャに直接埋め込むことで、空間相関を保持する「畳み込みアテンションLSTM（Conv-ALSTM）」を導入する。
アテンション機構における標準のMLPを、光流に基づいて動きに基づくアテンションマップを生成する浅い畳み込みネットワークに置き換える。
時間的スムージングをアテンションマップに適用することで、局在化の一貫性を向上させ、アクションの前面に注目する。
最終LSTM層のアテンションマップを弱教師付きアクション局在化のためのサリエンシー・マップとして利用する。
VideoLSTMをiDT特徴量や他のモデルと、指数的重みを用いた要素ごとの積により融合することで、性能を向上させる。
ボクセル境界のアノテーションを必要とせず、ビデオレベルのラベルのみを用いてエンド・ツー・エンドで学習する。

実験結果

リサーチクエスチョン

RQ1LSTMベースのアーキテクチャを、空間的、時間的、動きの特徴を統合的にモデル化できるようにビデオに適応させることは可能か？
RQ2標準のアテンション機構と比較して、動きに基づくアテンションを組み込むことで、アテンションの局在化性能とアクション認識性能が向上するか？
RQ3クラスレベルのラベルのみが利用可能な状況で、エンド・ツー・エンドで学習されたモデルのアテンションマップが、効果的にアクションを局在化できるか？
RQ4弱教師付き設定下で、VideoLSTMは最先端の手法と比較して、アクション認識および局在化において優れた性能を示すか？

主な発見

iDT特徴量と融合した場合、VideoLSTMはUCF101で92.2%、HMDB51で72.9%の最先端の正確度を達成する。
動きに基づくアテンション機構は、標準のAttention-LSTMと比較して、より高い再現率とアクション前面への集中度を示し、局在化性能を顕著に向上させる。
アテンションマップの時間的スムージングにより、VideoLSTMにおける局在化の一貫性が向上し、関連する空間時間的領域に注目していることが示された。
ボクセル境界のアノテーションを一切使用せず、ビデオレベルのラベルのみを用いても、THUMOS13では競争力あるmAPスコアを達成し、複数のIoU閾値で境界アノテーションを用いた手法を上回った。
1ビデオあたり1回の検出のみを用いても、アクションを効果的に局在化できることから、強力な弱教師付き局在化能力を示している。
実験の結果、空間的・動き的・時間的特性を統合的にモデル化することで一貫した性能向上が得られる一方、個別にモデル化するだけではほとんど利益がないことが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。