QUICK REVIEW

[論文レビュー] Two-Stream Convolutional Networks for Action Recognition in Videos

Karen Simonyan, Andrew Zisserman|arXiv (Cornell University)|Jun 9, 2014

Human Pose and Action Recognition参考文献 30被引用数 5,353

ひとこと要約

この論文は動画のアクション認識のための二流CNNアーキテクチャを提案し、空間ストリーム（フレームの見た目）と時間ストリーム（密な光学フロー）を組み合わせ、マルチタスク学習と融合戦略が UCF-101 と HMDB-51 における最先端性能を改善します。

ABSTRACT

We investigate architectures of discriminatively trained deep Convolutional Networks (ConvNets) for action recognition in video. The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multi-task learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both. Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification.

研究の動機と目的

動画のアクション認識における補完的な外観情報と動作情報を活用して深層学習を動機づける。
空間ネットワークと時間ネットワークを別個に持ち、遅融合でアクション分類を行う二流CNNアーキテクチャを提案する。
光-flowベースの時間情報入力構成とそれが認識性能に与える影響を調査する。
複数データセットからの訓練データを融合するマルチタスク学習を検討し、一般化を向上させる。

提案手法

空間（フレームベース）と時間（運動ベース）ストリームを持つ二-stream ConvNet アーキテクチャを導入する。
空間ストリームを ImageNet で事前学習し、アクション認識のためにファインチューニングする；ストリームスコアを遅融合で結合する。
多フレーム密な光学フロー入力で動作する時間的ConvNetを記述する（二つの選択肢：光学フローのスタッキングとトラジェクトリースタッキング）。
カメラ運動の頑健性と動作パターンを評価するため、平均フロー減算と双方向フロー変種を試す。
HMDB-51と UCF-101 を共同訓練し、タスク固有のソフトマックス層と損失を用いたマルチタスク学習を適用する。
三つの分割での平均精度を UCF-101 と HMDB-51 で評価し、手作成特徴法および深層法の最先端と比較する。

実験結果

リサーチクエスチョン

RQ1外観と運動情報の両方を活用する二流CNNが、動画アクション認識において単一ストリーム手法を上回ることができるか。
RQ2複数フレーム光学フロー入力（およびその変種）が時間的特徴学習と精度にどのように影響するか。
RQ3データセット間でのマルチタスク学習はアクション認識の時間的CNNの一般化を改善するか。

主な発見

二流アーキテクチャは、空間的手がかりと時間的手がかりを組み合わせることで性能を改善する。
光学フロー入力を用いた時間ネットが、複数フレームのスタッキングで、単一フレームまたは空間ネットよりも大幅に高い精度を達成する。
平均減算（カメラ運動補償）と L=10 の光学フロースタッキングは、時間的性能の大きな改善をもたらす。
HMDB-51 と UCF-101 を用いたマルチタスク学習は、時間ネットの最良の結果を提供し、追加の訓練データの利点を示す。
二流の融合を用いた SVM は平均化融合より優れており、マルチタスク学習で訓練された時間ストリームが最良の総合結果を示す。
UCF-101 では、SVM 融合を用いた二流モデルが平均精度 88.0%（分割1）に到達し、HMDB-51 では 59.4%に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。