Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Attention Network for Action Recognition in Videos

Yilin Wang, Suhang Wang|arXiv (Cornell University)|Jul 21, 2016
Human Pose and Action Recognition参考文献 20被引用数 77
ひとこと要約

本稿では、2ストリームのCNNと階層的なLSTM、およびデュアルな空間的・時間的アテンションメカニズムを組み合わせることで、長距離の時間的依存関係をモデル化し、顕著な領域に注目する階層的アテンションネットワーク(HAN)を提案する。HANは、UCF-101で92.7%、HMDB-51で64.3%の精度を達成し、最先端の性能を示しており、短時間および長時間の動きパターンを明示的に捉えることで、ノイズへの感受性を低減するアテンション駆動型の特徴選択により、先行手法を上回っている。

ABSTRACT

Understanding human actions in wild videos is an important task with a broad range of applications. In this paper we propose a novel approach named Hierarchical Attention Network (HAN), which enables to incorporate static spatial information, short-term motion information and long-term video temporal structures for complex human action understanding. Compared to recent convolutional neural network based approaches, HAN has following advantages (1) HAN can efficiently capture video temporal structures in a longer range; (2) HAN is able to reveal temporal transitions between frame chunks with different time steps, i.e. it explicitly models the temporal transitions between frames as well as video segments and (3) with a multiple step spatial temporal attention mechanism, HAN automatically learns important regions in video frames and temporal segments in the video. The proposed model is trained and evaluated on the standard video action benchmarks, i.e., UCF-101 and HMDB-51, and it significantly outperforms the state-of-the arts

研究の動機と目的

  • 変動する動きの速度、視点、背景のごみがある野生の動画において、長距離の時間的依存関係をモデル化する課題に対処すること。
  • 顕著な領域の空間的アテンションと、重要な動画セグメントの時間的アテンションを同時に学習することで、行動認識を向上させること。
  • 短時間の動きのダイナミクスと長時間の行動構造の両方を捉えるエンドツーエンドのディープラーニングフレームワークを構築すること。
  • 計算コストの高い手作業特徴(例:iDT)に依存することを減らしながら、その性能を維持または上回ること。
  • 階層的再帰構造とソフトアテンションが、未編集の動画における複雑な人間の行動をどのようにモデル化できるかを実証すること。

提案手法

  • モデルは、RGBフレームと光流を別々に処理する2ストリームのCNNアーキテクチャを用い、空間的特徴と動き特徴を抽出する。
  • 階層的LSTM構造がフレームレベルおよびセグメントレベルの特徴を処理し、短時間の遷移と長距離の時間的依存関係の両方をモデル化可能にする。
  • ソフトな空間的・時間的アテンションメカニズムが、フレームおよび動画セグメント上でアテンション重みを計算し、ネットワークが最も情報量の多い領域や時間帯に動的に注目できるようにする。
  • アテンション重みは、空間的および時間的LSTMからの符号化特徴に注目するゲート機構を介して計算され、その後、重み付き平均演算により特徴表現を精緻化する。
  • ネットワークはクロスエントロピー損失を用いてエンドツーエンドで訓練され、アテンションモジュールがLSTM層に統合され、特徴学習をガイドする。
  • 効率性を高めるために、光流は事前に計算して保存され、推論時には固定長の時間ウィンドウが使用されて一貫性が保たれる。

実験結果

リサーチクエスチョン

  • RQ1階層的アテンションメカニズムは、動画における短時間の動き遷移と長時間の行動構造の両方を効果的にモデル化できるか?
  • RQ2空間的・時間的アテンションを併用することで、顕著な領域と重要な時間的セグメントに注目することで、行動認識が向上するか?
  • RQ3iDTのような手作業特徴の計算コストが高いためにその計算を必要としないディープラーニングフレームワークが、その性能を維持または上回ることができるか?
  • RQ4階層的LSTM構造は、標準LSTMと比較して、行動シーケンスにおける長距離依存関係を捉える能力に優れているか?
  • RQ5アテンションは、背景のごみやクラス内ばらつきの影響をどれほど軽減するか?

主な発見

  • HANはUCF-101で92.7%、HMDB-51で64.3%の精度を達成し、2ストリームCNNやiDTベースのモデルを含む最先端の手法を顕著に上回った。
  • アテンション機構を削除すると、UCF-101では90.6%、HMDB-51では62.0%に精度が低下し、特徴選択におけるアテンションの重要性が示された。
  • 階層的LSTM構造は標準LSTMよりも性能を向上させ、標準LSTMの40フレームの制限を超えて、複雑な長距離行動シーケンスをモデル化できる能力を示した。
  • iDT特徴を用いないHAN(光流入力のみ)は、iDT特徴を用いるモデルと同等またはそれ以上の性能を示し、学習されたアテンションが密度の高い軌道計算を代替できることを示した。
  • 視覚的アテンション解析により、HANは先行するアテンションモデルよりも正確で動きに関連する領域を学習していることが確認され、図4の定性的比較で裏付けられた。
  • 空間的特徴と時間的特徴を組み合わせることで、単独で使用するよりも高い性能が得られ、行動認識における両モダリティの補完的性質が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。