Skip to main content
QUICK REVIEW

[論文レビュー] Hidden Two-Stream Convolutional Networks for Action Recognition

Yi Zhu, Zhenzhong Lan|arXiv (Cornell University)|Apr 2, 2017
Human Pose and Action Recognition参考文献 30被引用数 99
ひとこと要約

本論文は、MotionNet を介して生データフレームから直接運動表現を学習する Hidden Two-Stream Networks を提案し、光学フローを事前算出せずにエンドツーエンドのフレームワークでリアルタイムのアクション認識を実現します。四つのデータセットで競争力のある精度を示し、二段階ベースラインよりも大幅に高速です。

ABSTRACT

Analyzing videos of human actions involves understanding the temporal relationships among video frames. State-of-the-art action recognition approaches rely on traditional optical flow estimation methods to pre-compute motion information for CNNs. Such a two-stage approach is computationally expensive, storage demanding, and not end-to-end trainable. In this paper, we present a novel CNN architecture that implicitly captures motion information between adjacent frames. We name our approach hidden two-stream CNNs because it only takes raw video frames as input and directly predicts action classes without explicitly computing optical flow. Our end-to-end approach is 10x faster than its two-stage baseline. Experimental results on four challenging action recognition datasets: UCF101, HMDB51, THUMOS14 and ActivityNet v1.2 show that our approach significantly outperforms the previous best real-time approaches.

研究の動機と目的

  • 高価な光学フローの事前計算を回避するため、アクション認識のための運動表現をエンドツーエンドで学習する動機づけ。
  • Frameペアから光学フローに似た運動を教師なしで学習する MotionNet を導入する。
  • MotionNet を時系列CNNと積み重ねて、アクション分類のためにエンドツーエンドで訓練する。
  • 標準ベンチマークにおいて効率の向上と競争力のある精度を示す。

提案手法

  • MotionNet, a fully convolutional network that learns frame-to-frame motion by reconstructing one frame from another using backward warping.
  • ピクセル再構成、滑らかさ、SSIMベースの perceptual loss を含む教師なしのマルチスケール損失で MotionNet を訓練する。
  • 予測されたフローをクリップ、正規化、量子化して時系列ストリームCNNへ入力し、エンドツーエンドの積み重ねを可能にする。
  • 積み重ねと branching の比較を行い、運動特徴をアクションラベルへ投影するための積み重ねを実装する。
  • Hidden Two-Stream アーキテクチャにおいて、時系列モーションストリームと空間ストリームからの予測を結合する。
  • 標準の分割とデータ拡張を用いて four datasets (UCF101, HMDB51, THUMOS14, ActivityNet) で評価する。

実験結果

リサーチクエスチョン

  • RQ1Can motion information be learned end-to-end from raw frames without explicit optical flow pre-computation?
  • RQ2Does unsupervised MotionNet learning improve action recognition when stacked with a temporal CNN?
  • RQ3Is end-to-end training with multi-task objectives (including unsupervised losses) beneficial for action recognition?
  • RQ4How does hidden two-stream fusion compare to traditional two-stream methods in accuracy and speed?

主な発見

  • MotionNet, trained unsupervised, provides competitive optical-flow-like representations and, when stacked with a temporal CNN, yields strong action recognition performance.
  • End-to-end hidden two-stream networks are around 10x faster than two-stage baselines due to on-the-fly motion estimation and no flow storage.
  • The stacked temporal stream with MotionNet, when fused with a spatial stream, achieves improved accuracy over single-stream baselines.
  • End-to-end fine-tuning with unsupervised and action losses yields the best recognition results among tested configurations.
  • MotionNet shows robustness and generalization, performing competitively on optical-flow benchmarks while delivering strong action recognition results.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。