Skip to main content
QUICK REVIEW

[論文レビュー] Learning to track for spatio-temporal action localization

Philippe Weinzaepfel, Zaïd Harchaoui|arXiv (Cornell University)|Jun 5, 2015
Human Pose and Action Recognition参考文献 39被引用数 72
ひとこと要約

本論文は、フレームレベルの提案、インスタンスレベルおよびクラスレベルの検出器、および空間的・時間的運動ヒストグラム(STMH)記述子を統合することで、局所化精度を向上させるトラッキングベースの時空間行動局所化手法を提案する。高スコアの提案を複数フレームにわたってトラッキングし、スライディングウィンドウを用いて時間的境界を精緻化することで、UCF-Sports、J-HMDB、UCF-101でそれぞれ前人最高のmAP性能を達成し、それぞれ15%、7%、12%の向上を達成した。

ABSTRACT

We propose an effective approach for spatio-temporal action localization in realistic videos. The approach first detects proposals at the frame-level and scores them with a combination of static and motion CNN features. It then tracks high-scoring proposals throughout the video using a tracking-by-detection approach. Our tracker relies simultaneously on instance-level and class-level detectors. The tracks are scored using a spatio-temporal motion histogram, a descriptor at the track level, in combination with the CNN features. Finally, we perform temporal localization of the action using a sliding-window approach at the track level. We present experimental results for spatio-temporal localization on the UCF-Sports, J-HMDB and UCF-101 action localization datasets, where our approach outperforms the state of the art with a margin of 15%, 7% and 12% respectively in mAP.

研究の動機と目的

  • 未編集動画内での行動の空間的・時間的正確な局所化という課題に取り組む。
  • フレーム間の一貫性を強制するためにトラッキングを活用することで、空間的および時間的局所化の精度を向上させる。
  • トラックレベルでのCNN特徴量と、新規の空間的・時間的運動ヒストグラム(STMH)記述子を組み合わせることで、検出の信頼性を向上させる。
  • 時空間行動局所化のベンチマークデータセットで、最先端のパフォーマンスを達成する。
  • インスタンスレベルおよびクラスレベルの二重検出器を備えたトラッキング・バイ・検出フレームワークが、強力な行動トラッキングを実現できることを示す。

提案手法

  • 高再現率の提案アルゴリズムを用いて、潜在的な行動領域をカバーするフレームレベルの行動提案を生成する。
  • 外観および動きストリーム(例:光流)からのCNN特徴量の組み合わせを用いて、各提案のスコアを算出する。
  • インスタンスレベルおよびクラスレベルの検出器を用いて、フレーム間の一貫性を保つトラッキング・バイ・検出フレームワークを採用する。
  • トラックは、時間的・空間的動的パターンを捉える空間的・時間的運動ヒストグラム(STMH)とCNN特徴量を組み合わせたスコアで評価される。
  • 時間的局所化は、トラックレベルにスケールを変えて適用するスライディングウィンドウを用いて、行動境界を精緻化する。
  • 最終的な行動予測は、スコアが高いトラックを選択することで得られ、時間的ウィンドウは正解ラベルとの最大重複度を最適化する。

実験結果

リサーチクエスチョン

  • RQ1フレームレベルの提案に時間的整合性を強制することで、トラッキングが時空間行動局所化の精度を向上させ得るか?
  • RQ2インスタンスレベルおよびクラスレベルの検出器を組み合わせることで、未編集動画におけるトラッキングのロバストネスがどのように向上するか?
  • RQ3提案された空間的・時間的運動ヒストグラム(STMH)記述子は、CNN特徴量のみに比べて、局所化精度をどの程度向上させるか?
  • RQ4トラックレベルでのスライディングウィンドウアプローチは、時間的持続期間が異なる行動の時間的境界を効果的に精緻化できるか?
  • RQ5本手法は、UCF-Sports、J-HMDB、UCF-101といった標準ベンチマークで、最先端のパフォーマンスを達成できるか?

主な発見

  • UCF-SportsではmAPが90.5%に達し、前人最高の結果を15%上回った。
  • J-HMDBでは、IoU閾値δ=0.3でmAPが63.5%に達し、前人最高の結果を7%上回った。
  • UCF-101では、δ=0.05でmAPが54.28%、δ=0.2で46.77%を達成し、[46]をδ=0.2で12%上回った。
  • STMH記述子を除去するとmAPが2%低下し、局所化精度の向上に貢献していることが確認された。
  • 『バスケットボール』行動(短時間持続)では、δ=0.2でmAPが28.6%に達し、時間的局所化なしでは9.63%に低下するなど、スライディングウィンドウ手順の有効性が裏付けられた。
  • IoU閾値にわたるmAPの高い安定性は、トラッキングによる精緻化のおかげで空間的局所化が正確であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。