Skip to main content
QUICK REVIEW

[論文レビュー] Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang|arXiv (Cornell University)|Nov 29, 2017
Human Pose and Action Recognition参考文献 45被引用数 28
ひとこと要約

本論文では、深層特徴マップからの空間時間的勾配を用いて、エンド・トウエンド学習が可能なRGB入力のみで動作する高速で頑健な動的表現であるOptical Flow Guided Feature (OFF)を提案する。この手法はUCF-101で93.3%の精度を達成し、二ストリームネットワークと同等の性能を発揮するが、200 FPSを超える速度で動作する。また、光学フローと組み合わせることで、UCF-101で96.0%、HMDB-51で74.2%のSOTA性能を達成する。

ABSTRACT

Motion representation plays a vital role in human action recognition in videos. In this study, we introduce a novel compact motion representation for video action recognition, named Optical Flow guided Feature (OFF), which enables the network to distill temporal information through a fast and robust approach. The OFF is derived from the definition of optical flow and is orthogonal to the optical flow. The derivation also provides theoretical support for using the difference between two frames. By directly calculating pixel-wise spatiotemporal gradients of the deep feature maps, the OFF could be embedded in any existing CNN based video action recognition framework with only a slight additional cost. It enables the CNN to extract spatiotemporal information, especially the temporal information between frames simultaneously. This simple but powerful idea is validated by experimental results. The network with OFF fed only by RGB inputs achieves a competitive accuracy of 93.3% on UCF-101, which is comparable with the result obtained by two streams (RGB and optical flow), but is 15 times faster in speed. Experimental results also show that OFF is complementary to other motion modalities such as optical flow. When the proposed method is plugged into the state-of-the-art video action recognition framework, it has 96:0% and 74:2% accuracy on UCF-101 and HMDB-51 respectively. The code for this project is available at https://github.com/kevin-ssy/Optical-Flow-Guided-Feature.

研究の動機と目的

  • 動的行動認識のための密な光学フロー抽出の非効率性と高コストを解消すること。
  • 事前に計算された光学フローに依存せずに、時間的ダイナミクスを捉えるコンactで微分可能な動的表現を開発すること。
  • 二ストリームネットワークと同等の性能を達成しつつ、RGB入力のみでCNNのエンド・トウエンド学習を可能にすること。
  • 特徴レベルの動的表現が、従来の光学フローを上回るか補完的であるかどうかを検証すること。
  • 光学フローなどの他の動的モダリティと組み合わせた場合のOFFの有効性と補完性を検証すること。

提案手法

  • OFFは、特徴レベルにおける光学フローの直交空間から導出され、深層畳み込みニューラルネットワーク(CNN)特徴マップのピクセル単位の空間時間的勾配を用いる。
  • 水平および垂直方向の空間的勾配と、連続する特徴マップ間の時間的差分を計算し、動的認識に適した表現を形成する。
  • OFF内のすべての演算は微分可能であり、任意のCNNベースの動的行動認識フレームワークに統合することでエンド・トウエンド学習が可能になる。
  • 特徴マップ間の時間的差分は、物体や身体部位が出現または消失する領域を強調することで、動きのダイナミクスを捉える。
  • OFFは特徴マップ上で直接計算されるため、別個の光学フロー推定の必要がなく、推論時間を短縮する。
  • このアプローチはモジュール式であり、Two-StreamネットワークやTSNなどの既存アーキテクチャに容易に組み込み可能で、計算コストをほとんど増加させずに性能を向上できる。

実験結果

リサーチクエスチョン

  • RQ1深層特徴勾配から導出される動的表現は、光学フローと同等の性能を達成しつつ、はるかに高速に計算可能か?
  • RQ2深層特徴間の時間的差分は、行動認識に特徴的な意味のある動きのダイナミクスを捉えているか?
  • RQ3OFFを単体で使用した動的表現として、RGB入力のみで二ストリームネットワークと同等の精度を達成できるか?
  • RQ4OFFは光学フローなどの他の動的モダリティと補完的であり、それらと統合することで性能が向上するか?
  • RQ5OFF表現は単一のCNN内でエンド・トウエンド学習可能であり、事前に計算された動的特徴の必要がなくなるか?

主な発見

  • OFFを用いたネットワークは、RGB入力のみでUCF-101で93.3%の精度を達成し、二ストリームネットワークと同等の性能を発揮するが、15倍も高速である。
  • OFFを搭載したネットワークは200 FPSを超えて動作し、RGB入力のみで高い推論効率を実現している。
  • Two-Stream設定で光学フローと組み合わせた場合、UCF-101で96.0%、HMDB-51で74.2%の精度を達成し、ベースラインのTwo-Stream TSNよりそれぞれ2.0%、5.7%高い性能を発揮した。
  • アブレーションスタディにより、性能向上の主な要因はOFFの計算に起因しており、ネットワークアーキテクチャではなく、OFFを含まないハイパーカラムベースラインは顕著に性能が低いことが確認された。
  • アンサンブルにOFF(RGB Diff)を追加することで、精度が0.3%向上した。これは、追加のモダリティとしての有効性を示している。
  • OFF表現は他の動的記述子と補完的であり、追加の前処理や動的特徴の保存を必要とせず、SOTAモデルの性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。