QUICK REVIEW

[論文レビュー] Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition

Harshala Gammulle, Simon Denman|arXiv (Cornell University)|Apr 4, 2017

Human Pose and Action Recognition参考文献 34被引用数 25

ひとこと要約

本論文では、事前学習されたVGG-16 CNNから得られる空間的特徴と、2つの独立したLSTMストリームがモデル化する時間的ダイナミクスを融合する2ストリームLSTMフレームワークを提案する。1つのストリームは畳み込み特徴を処理し、もう1つのストリームは全結合特徴を処理する。全結合特徴を暗黙の注意メカニズムとして用いることで、先行手法よりも少ないパラメータで、UCF11（94.6%）、UCFSports、jHMDBで最先端の精度を達成した。

ABSTRACT

In this paper we address the problem of human action recognition from video sequences. Inspired by the exemplary results obtained via automatic feature learning and deep learning approaches in computer vision, we focus our attention towards learning salient spatial features via a convolutional neural network (CNN) and then map their temporal relationship with the aid of Long-Short-Term-Memory (LSTM) networks. Our contribution in this paper is a deep fusion framework that more effectively exploits spatial features from CNNs with temporal features from LSTM models. We also extensively evaluate their strengths and weaknesses. We find that by combining both the sets of features, the fully connected features effectively act as an attention mechanism to direct the LSTM to interesting parts of the convolutional feature sequence. The significance of our fusion method is its simplicity and effectiveness compared to other state-of-the-art methods. The evaluation results demonstrate that this hierarchical multi stream fusion method has higher performance compared to single stream mapping methods allowing it to achieve high accuracy outperforming current state-of-the-art methods in three widely used databases: UCF11, UCFSports, jHMDB.

研究の動機と目的

複雑な動き、遮蔽、雑音を含む実世界の動画における人間の行動認識の課題に対処すること。
深層融合を用いて空間的特徴と時間的特徴を効果的に統合することで、認識精度を向上させること。
CNNの全結合層出力が、LSTM処理をガイドする注意メカニズムとして機能するかどうかを調査すること。
マルチストリームまたはデュアルネットワークアーキテクチャの代替として、計算効率の高い手法を開発すること。
提案された統合フレームワークを標準ベンチマーク（UCF11、UCFSports、jHMDB）で評価すること。

提案手法

モデルは、事前学習済みのVGG-16ネットワークを用いて、動画フレームからの空間的特徴を抽出し、最終畳み込み層の出力を1つのストリームとして使用する。
2番目のLSTMストリームは、同じCNNの最初の全結合層出力を処理し、高レベルの意味的表現を捉える。
空間的特徴列と意味的特徴列の両方を、独立して処理する2つのLSTMがそれぞれ処理する。
3番目のLSTM層が2つのストリームの出力を統合し、共同の時空間的依存関係をモデル化する。
統合戦略は、全結合特徴を用いて、LSTMが特徴列の顕著な領域に注目するのを暗黙的にガイドする。これは注意メカニズムとして機能する。
モデル全体は、交差エントロピー損失を用いて、行動認識データセット上でエンドツーエンドで微調整される。

実験結果

リサーチクエスチョン

RQ12つの独立したLSTMストリームを用いて、CNNの畳み込み特徴と全結合特徴を統合することで、行動認識性能が向上するか？
RQ2全結合層出力の使用が、LSTMが特徴列の関連のある時間的セグメントに注目する能力に与える影響は何か？
RQ3提案された2ストリーム統合フレームワークは、単一ストリームまたはマルチストリームベースラインを上回る性能を示すか？
RQ4先行の最先端手法と比較して、パrameter数を大幅に削減しながら、精度を維持または向上させられるか？
RQ5外見が似た行動クラスが多数存在する状況でも、モデルの一般化性能はどの程度高いか？

主な発見

提案された2ストリームLSTMフレームワークは、UCF11データセットで94.6%の精度を達成し、前回の最先端手法を5.1ポイント上回った。
UCFSportsデータセットでは、ゴルフスイングとクロケットスイングといった視覚的に類似した行動の区別が優れており、先行研究と比較して誤認識が減少した。
jHMDBデータセットの「p latter」、「golf」、「climb_stairs」、「pull_up」などの困難なクラスでも高い精度を達成し、[7]と比較して「shoot_ball」と「jump」の性能が向上した。
全結合特徴が暗黙の注意メカニズムとして機能し、LSTMが畳み込み特徴列の最も関連性の高い部分に注目するのを助けた。
モデルはたった1億4100万パラメータで、[7]（1億8000万）や[26]（3億）と比較して顕著に少ないパラメータ数を実現し、計算効率の向上を示した。
3番目のLSTM層による両ストリームの統合が、最良の性能をもたらし、階層的マルチストリーム統合の有効性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。