Skip to main content
QUICK REVIEW

[論文レビュー] Spatiotemporal Residual Networks for Video Action Recognition

Christoph Feichtenhofer, Axel Pinz|arXiv (Cornell University)|Nov 7, 2016
Human Pose and Action Recognition被引用数 494
ひとこと要約

短縮要約: 時空間的 ResNet を導入し、二流ストリームアーキテクチャと残差結合および時間畳み込みを融合して、UCF101 および HMDB51 でアクション認識の最先端を達成します。

ABSTRACT

Two-stream Convolutional Networks (ConvNets) have shown strong performance for human action recognition in videos. Recently, Residual Networks (ResNets) have arisen as a new technique to train extremely deep architectures. In this paper, we introduce spatiotemporal ResNets as a combination of these two approaches. Our novel architecture generalizes ResNets for the spatiotemporal domain by introducing residual connections in two ways. First, we inject residual connections between the appearance and motion pathways of a two-stream architecture to allow spatiotemporal interaction between the two streams. Second, we transform pretrained image ConvNets into spatiotemporal networks by equipping these with learnable convolutional filters that are initialized as temporal residual connections and operate on adjacent feature maps in time. This approach slowly increases the spatiotemporal receptive field as the depth of the model increases and naturally integrates image ConvNet design principles. The whole model is trained end-to-end to allow hierarchical learning of complex spatiotemporal features. We evaluate our novel spatiotemporal ResNet using two widely used action recognition benchmarks where it exceeds the previous state-of-the-art.

研究の動機と目的

  • ResNets を動画アクション認識の時空間ドメインに拡張する。
  • 外観(RGB)およびモーション(光学フロー)ストリームをストリーム間の残差結合で統合する。
  • 事前学習済み画像ConvNets を時空間ネットワークへ、時空間残差初期化を介して変換する。
  • エンドツーエンドの学習を可能にし、階層的な時空間特徴を学習する。
  • 標準のアクション認識ベンチマークで最先端性能を実証する。

提案手法

  • ImageNet で事前学習した appearance とmotion ストリームの二-stream ResNet-50 アーキテクチャを採用する。
  • ストリーム間に残差結合を導入して時空間的相互作用(モーション残差)を可能にする。
  • 空間的な 1x1 次元マッピングフィルタを時系列フィルタへ変換し、時系列残差結合として初期化する(式5 および関連)。
  • 時空間受容野を拡大するために時系列畳み込みを積み重ねつつ、画像ベースの設計原理を維持する。
  • 3 段階で学習する:別々のストリーム事前学習、クロススStream 残差を用いた結合 ST-ResNet 学習、時系列最大プーリングを用いた ST-ResNet* 。
  • 全結合での推論を用い、25-frame のチャンクと長時間の時系列を扱うための時系列最大プーリングを用いる。

実験結果

リサーチクエスチョン

  • RQ1 appearance と motion ストリーム間の残差結合は、動画アクション認識の時空間特徴学習を改善できるか。
  • RQ2ResNets を時系列畳み込みと pre-trained image-net ベースの初期化で拡張すると、標準ベンチマークの性能は向上するか。
  • RQ3エンドツーエンド学習と時系列最大プーリングは認識精度にどのような影響を与えるか。
  • RQ4長時間の動画列における時系列ストライドと受容野はアクション認識にどのように影響するか。

主な発見

  • ST-ResNet は、クロスストリーム残差と時系列畳み込みを導入することで、二-stream ベースラインを大幅に上回る。
  • ST-ResNet* および ST-ResNet* の時系列最大プーリングは、ST-ResNet よりも高い精度を両ベンチマークで達成。
  • UCF101 および HMDB51 では、ST-ResNet* が prior ConvNet アプローチと比較して最先端の結果を示す。
  • ST-ResNet* に IDT features を組み込むと HMDB51 の性能がさらに向上する(顕著な向上)。
  • 事前学習済みの画像ネットを活用した時空間ネットワークのエンドツーエンド学習は、強力な一般化能力と性能向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。