QUICK REVIEW

[論文レビュー] Temporal Pyramid Pooling Based Convolutional Neural Networks for Action Recognition

Peng Wang, Yuanzhouhan Cao|arXiv (Cornell University)|Mar 4, 2015

Human Pose and Action Recognition参考文献 24被引用数 35

ひとこと要約

本論文は、可変フレーム数の動画入力を扱えるようにするため、符号化層と多段階時系列プーリングを組み合わせた時系列パラレルプール（TPP）に基づくCNNアーキテクチャを提案する。この手法は、外見特徴と動き特徴を統合することで、任意のフレーム数の動画からの行動認識を可能にする。事前学習済み画像CNNを初期化に用いることで、トレーニングデータの必要量を著しく削減し、Hollywood2およびHMDB51で最先端の性能を達成する。

ABSTRACT

Encouraged by the success of Convolutional Neural Networks (CNNs) in image classification, recently much effort is spent on applying CNNs to video based action recognition problems. One challenge is that video contains a varying number of frames which is incompatible to the standard input format of CNNs. Existing methods handle this issue either by directly sampling a fixed number of frames or bypassing this issue by introducing a 3D convolutional layer which conducts convolution in spatial-temporal domain. To solve this issue, here we propose a novel network structure which allows an arbitrary number of frames as the network input. The key of our solution is to introduce a module consisting of an encoding layer and a temporal pyramid pooling layer. The encoding layer maps the activation from previous layers to a feature vector suitable for pooling while the temporal pyramid pooling layer converts multiple frame-level activations into a fixed-length video-level representation. In addition, we adopt a feature concatenation layer which combines appearance information and motion information. Compared with the frame sampling strategy, our method avoids the risk of missing any important frames. Compared with the 3D convolutional method which requires a huge video dataset for network training, our model can be learned on a small target dataset because we can leverage the off-the-shelf image-level CNN for model parameter initialization. Experiments on two challenging datasets, Hollywood2 and HMDB51, demonstrate that our method achieves superior performance over state-of-the-art methods while requiring much fewer training data.

研究の動機と目的

標準の固定入力サイズCNNとは互換性のない可変長動画入力におけるCNNベースの行動認識の課題に対処すること。
フレームサンプリングのリスクを回避し、大規模な動画データセットへの依存度を低減するために、小規模なターゲットデータセット上でエンドツーエンド学習を可能にすること。
階層的プーリングによる時系列構造の明示的モデリングを通じて、動画レベルの表現学習を向上させること。
認識精度の向上を図るため、早期統合を用いて外見特徴と動き特徴を効果的に統合すること。

提案手法

可変長フレーム活性化を固定長の動画レベル表現に変換するため、符号化層と時系列パラレルプール層を組み合わせた新規ネットワークモジュールを導入する。
2ストリームアーキテクチャを採用：1つは事前学習済みImageNet CNNから得られる外見特徴用、もう1つは密なトレイジェクトリとMBH記述子を用いた動き特徴用。
複数段階の時系列パラレルプールを適用し、動画全体をb個のセグメントに分割することで、マルチスケールの時系列ダイナミクスを捉える。
最終分類の直前までに外見特徴と動き特徴を早期統合するための特徴連結層を採用する。
過学習を軽減するため、事前学習済みImageNet CNN（例：GoogLeNet）を特徴抽出および重み初期化に活用する。
動き特徴に対しては、すでにプール対応のFisherベクトル符号化を適用するが、CNNの最終畳み込み層からの活性化マップに対しては追加の符号化層を適用する。

実験結果

リサーチクエスチョン

RQ1CNNベースの行動認識モデルは、フレームサンプリングや3次元畳み込みを用いずに、可変長動画入力を処理できるか？
RQ2時系列パラレルプールは、マルチスケールの時系列構造をモデリングすることで、動画レベルの表現を向上させることができるか？
RQ3外見特徴と動き特徴の早期統合は、行動認識において後期統合を上回る性能を発揮するか？
RQ43次元CNNと比較して、提案手法はどれほど大規模な動画データセットの必要性を低減できるか？

主な発見

Hollywood2データセットでは、早期統合を用いた場合、67.5%の正確性を達成し、後期統合（64.7%）を2.8ポイント上回った。
HMDB51では、早期統合で59.7%の正確性を達成し、後期統合（57.7%）を2ポイント上回った。
最適な時系列パラレル構造はb=5セグメントであり、Hollywood2では44.2%、HMDB51では41.3%の正確性を達成し、ベースライン（b=0）をそれぞれ6.0ポイントおよび2.8ポイント上回った。
提案手法は、Hollywood2およびHMDB51の両方で最先端の性能を達成し、3次元CNNと比較して著しく少ないトレーニングデータで実現した。
符号化層はCNN畳み込み特徴（例：FC7）に対して顕著な利点を提供するが、事前に符号化済みの動き特徴（例：Fisherベクトル）に対してはほとんど利益が得られないことから、特徴の標準化における役割が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。