QUICK REVIEW

[論文レビュー] Convolutional Two-Stream Network Fusion for Video Action Recognition

Christoph Feichtenhofer, Axel Pinz|arXiv (Cornell University)|Apr 22, 2016

Human Pose and Action Recognition参考文献 31被引用数 371

ひとこと要約

この論文は、空間的ConvNetストリームと時空的ConvNetストリームをさまざまなフュージョン戦略で組み合わせる時空間フュージョンアーキテクチャを提示し、UCF101とHMDB51で最先端の結果を示します。3D時相プーリングを用いた遅い段階の空間フュージョンは、単純なソフトマックスフュージョンよりパラメータが少ないにもかかわらず高い性能を発揮します。

ABSTRACT

Recent applications of Convolutional Neural Networks (ConvNets) for human action recognition in videos have proposed different solutions for incorporating the appearance and motion information. We study a number of ways of fusing ConvNet towers both spatially and temporally in order to best take advantage of this spatio-temporal information. We make the following findings: (i) that rather than fusing at the softmax layer, a spatial and temporal network can be fused at a convolution layer without loss of performance, but with a substantial saving in parameters; (ii) that it is better to fuse such networks spatially at the last convolutional layer than earlier, and that additionally fusing at the class prediction layer can boost accuracy; finally (iii) that pooling of abstract convolutional features over spatiotemporal neighbourhoods further boosts performance. Based on these studies we propose a new ConvNet architecture for spatiotemporal fusion of video snippets, and evaluate its performance on standard benchmarks where this architecture achieves state-of-the-art results.

研究の動機と目的

動画から appearance（空間）と motion（時系列）手がかりを効果的にフュージョンして、アクション認識を動機づけ・改善する。
空間と時間の2つのConvNetストリームをどこで、どうやって、どのくらいの頻度でフュージョンして、時空的特徴学習を最大化するかを調査する。
空間対応を保持しつつ時間的文脈を活用する実用的な時空間フュージョンアーキテクチャを開発する。
精度とモデルサイズへの影響を理解するため、フュージョン戦略と深さを比較する。

提案手法

選択した層で2つのストリームを結合するために、和、最大、連結、畳み込み、バイリニアなど複数のフュージョン関数を評価する。
空間寸法を揃える制約の下で、さまざまな畳み込み層、全結合層の後、または多層フュージョンなど、フュージョン位置を実験する。
短期および長期の時系列構造をとらえるために、2D/3Dプーリングと3D畳み込みによる時間情報のフュージョンを実装する。
最後の畳み込み層で3D畳み込みフュージョンと3Dプーリングを用いてフュージョンしつつ、時系列ストリームを保持する、時空間フュージュアアーキテクチャを提案する。
ImageNetで事前学習した空間（RGB）と時間（光流）を用いた2ストリームネットワークを訓練し、その後UCF101とHMDB51でファインチューニングする。テスト時には密な時刻サンプリングで評価する。

実験結果

リサーチクエスチョン

RQ1空間ストリームと時間ストリームのどのフュージョン戦略が最も高いアクション認識精度をもたらすか？
RQ2ネットワークのどこでフュージョンを行えば、性能を最大化しつつパラメータを最小化できるか？
RQ3短期および長期ダイナミクスを効果的に捉えるためには時刻情報をどのようにフュージョンすべきか？
RQ4より深いネットワーク（例：VGG-16）を使用すると、アクション認識の改善は時間モデルより空間モデルで顕著になるのか？
RQ5標準ベンチマークで、時空間フュージョンは単一ストリームまたは遅延フュージョンのベースラインと比較してどうか？

主な発見

Fusion Method	Fusion Layer	Acc	#layers	#parameters
Sum (softmax)	Softmax	85.94%	16	181.42M
Sum (ours)	Softmax	85.94%	16	181.42M
Max	ReLU5	82.70%	13	97.31M
Concatenation	ReLU5	83.53%	13	172.81M
Bilinear	ReLU5	85.05%	10	6.61M+SVM
Sum	ReLU5	85.20%	13	97.31M
Conv	ReLU5	85.96%	14	97.58M

最終畳み込み層（ReLU5）でのConvフュージョンは他の空間フュージョン層より優れ、遅延フュージョンのソフトマックス層と同等以上で、パラメータが大幅に少ない。
連結と最大フュージョンは一般に和や畳み込みフュージョンと比べて性能が劣り、畳み込みフュージョンが多くの設定で最良の精度を提供する。
ReLU5で二つのストリームをフュージョンし、その後3Dフュージョンと3Dプーリングを用いると、2Dプーリングより性能が向上し、時空間対応の明示的な利点を保持する。
より深いモデル（VGG-16）を両ストリームに適用すると、空間モデルの精度が顕著に向上する一方で、時間的利得は小さく、空間の深さの方が大きな利益をもたらすことを示す。
3D畳み込みと3Dプーリングを用いた時空間フュージョンは、平凡な2Dフュージョンや予測の単純平均より高い精度を示す。3Dフュージョンフィルタはベンチマークでの性能をさらに向上させる。
提案された3D時空間フュージョンアーキテクチャは、従来の二ストリーム法と比較してUCF101とHMDB51で最先端の結果を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。