QUICK REVIEW

[論文レビュー] STM: SpatioTemporal and Motion Encoding for Action Recognition

Boyuan Jiang, Mengmeng Wang|arXiv (Cornell University)|Aug 7, 2019

Human Pose and Action Recognition参考文献 39被引用数 59

ひとこと要約

STMはChannel-wise SpatioTemporal Module (CSTM)およびChannel-wise Motion Module (CMM)を介して時空的およびモーション特徴を統合的に符号化する統一的な2D CNNを提案し、ResNetの残差ブロックを置換して3D畳み込みや光学フローの事前計算なしで最先端を上回る。

ABSTRACT

Spatiotemporal and motion features are two complementary and crucial information for video action recognition. Recent state-of-the-art methods adopt a 3D CNN stream to learn spatiotemporal features and another flow stream to learn motion features. In this work, we aim to efficiently encode these two features in a unified 2D framework. To this end, we first propose an STM block, which contains a Channel-wise SpatioTemporal Module (CSTM) to present the spatiotemporal features and a Channel-wise Motion Module (CMM) to efficiently encode motion features. We then replace original residual blocks in the ResNet architecture with STM blcoks to form a simple yet effective STM network by introducing very limited extra computation cost. Extensive experiments demonstrate that the proposed STM network outperforms the state-of-the-art methods on both temporal-related datasets (i.e., Something-Something v1 & v2 and Jester) and scene-related datasets (i.e., Kinetics-400, UCF-101, and HMDB-51) with the help of encoding spatiotemporal and motion features together.

研究の動機と目的

時空情報とモーション情報を同時にエンコードすることで、効率的なアクション認識を推進する。
高精度を維持しつつ、3D畳込みと光学フローの事前計算の必要性を排除する。
最小限の計算オーバーヘッドで、既存の2D CNNバックボーン（例：ResNet）への容易な統合を実現する。

提案手法

Channel-wise SpatioTemporal Module (CSTM) を導入し、チャネルごとに局所的な空間処理と時間情報を統合する。
Channel-wise Motion Module (CMM) を導入し、明示的な光学フローなしに連続フレームからモーション様の表現を抽出する。
CSTMとCMMを残差風のアイデンティティパスおよび1×1のチャネル次元削減/拡張と組み合わせてSTMブロックを形成し、ResNetアーキテクチャへの挿入を可能にする。
ResNetの標準的な残差ブロックをSTMブロックに置換してSTMネットワークを構築し、3D演算や事前計算済みのフローを使用しない軽量な2D CNNを実現する。
CSTMとCMMの加算融合が連結より優れていること、STMブロックをネットワーク深くに配置するほど良い結果が得られることを示す。

実験結果

リサーチクエスチョン

RQ13D畳み込みや光学フローの事前計算なしに、時空特徴とモーション特徴を統合した2D CNNで効果的にエンコードできるか？
RQ2チャネル単位の時間的融合とチャネル単位のモーション表現は、アクション認識に補完的な利得をもたらすか？
RQ3融合戦略、ブロック配置、時間カーネル設計がSTMの性能に与える影響は何か？

主な発見

STMはRGBフレームのみを用いて、時間関連データセット（Something-Something v1/v2、Jester）で最先端の結果を達成する。
Something-Something v1 の8フレームで、STMはTSNより約29.5%ポイント高いtop-1精度を達成；16フレームでは、TSNより34.5–34.2%ポイントの改善。
Something-Something v2では、8フレームおよび16フレームの両方でTSNに対して顕著な改善を示す（top-1およびtop-5指標）。
Kinetics-400では、STMは73.7% top-1と91.6% top-5を達成し、3Dおよび2ストリーム手法と競合しつつ計算負荷が軽い。
UCF-101およびHMDB-51では、STMは複数のベースラインに近づくか上回り、RGBのみのTSNを上回り、I3Dベース手法と競合する。特にKineticsで事前学習を使用する場合に顕著。
アブレーション研究より、CSTMとCMMはともに大きな利得をもたらし、チャネル単位の時間的融合が通常の時間畳み込みを上回り、加算融合が連結を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。