Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Action Detection with Structured Segment Networks

Yue Zhao, Yuanjun Xiong|arXiv (Cornell University)|Apr 20, 2017
Human Pose and Action Recognition参考文献 48被引用数 144
ひとこと要約

SSN は開始・過程・終了の各段階をモデル化する構造化された時系列ピラミッドプーリングを導入し、別々の activity および completeness クラス分類器と TAG 提案を組み合わせて、THUMOS’14 および ActivityNet で最先端の結果を達成します。

ABSTRACT

Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (SSN), a novel framework which models the temporal structure of each action instance via a structured temporal pyramid. On top of the pyramid, we further introduce a decomposed discriminative model comprising two classifiers, respectively for classifying actions and determining completeness. This allows the framework to effectively distinguish positive proposals from background or incomplete ones, thus leading to both accurate recognition and localization. These components are integrated into a unified network that can be efficiently trained in an end-to-end fashion. Additionally, a simple yet effective temporal action proposal scheme, dubbed temporal actionness grouping (TAG) is devised to generate high quality action proposals. On two challenging benchmarks, THUMOS14 and ActivityNet, our method remarkably outperforms previous state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling actions with various temporal structures.

研究の動機と目的

  • アクションインスタンスの時間的構造を、開始・過程・終了の3段 representation でモデル化する。
  • 構造化時系列ピラミッドプーリング(STPP)を開発し、リッチなグローバル提案を形成する。
  • アクション分類と完全性の評価を jointly 学習して、未完了または背景提案をフィルタリングする。
  • 長いビデオでの効率性のために、疎なスニペットサンプリングでエンドツーエンドのトレーニングを可能にする。
  • 頑健な時系列アクション提案手法(Temporal Actionness Grouping, TAG)を提案し、リコールと精度を向上させる。

提案手法

  • 拡張提案を開始・過程・終了の段階に分割し、構造化時系列ピラミッドプーリングを適用して段階別表現を得る。
  • K+1 クラス(背景を含む)用の activity クラシファイアと、提案の完全性を評価する複数の K 完全性クラシファイアの二分類器システムを用いる。
  • 分類と完全性を組み合わせたマルチタスク損失と、時系列境界のロケーション回帰を用いて訓練する。
  • 訓練時には STPP を効率的に近似するために、スパースなスニップ仮定(L=9 セグメント)を採用する。
  • 推論時には共有特徴を再利用するよう計算を再配置し、多くの提案の分類/回帰を高速化する。
  • Temporal Actionness Grouping(TAG)を用いて 1D アクションシグナルをフラウドし、盆地を統合して高品質な提案を生成する。

実験結果

リサーチクエスチョン

  • RQ1明示的な時系列構造モデリング(開始/過程/終了)が、不完全または背景提案から完全なアクションインスタンスを識別するのに有効か?
  • RQ2構造化時系列ピラミッドプーリングは、長く構造が変動するアクションの表現を、平坦なプーリングと比較して改善するか?
  • RQ3個別の activity と completeness クラス分類器は、異なる IoU閾値で検出精度と精度にどのように寄与するか?
  • RQ4スパースサンプリングを用いたエンドツーエンドトレーニングは、性能と効率にどのような影響を与えるか?
  • RQ5TAG は従来のスライディングウィンドウや他の提案と比べて、リコールと提案品質を高め、時系列アクション検出の全体的な性能を向上させるか?

主な発見

  • SSN は THUMOS’14 および ActivityNet v1.3/1.2 で最先端の結果を達成し、複数の指標で従来法を上回る。
  • 開始・過程・終了の段階構造を持つ拡張提案を用いた構造化時系列ピラミッドプーリングは、段階構造のないセットアップより検出を改善する。
  • 分解された activity および completeness クラス分類器は、単一の統合ネガティブクラスアプローチを上回る。
  • ロケーション回帰とマルチタスク学習は検出精度を一貫して向上させる。
  • スパースサンプリングを用いたエンドツーエンドトレーニングは、ストレージと計算を抑えつつ競争力のある性能を発揮する。
  • TAG 提案はリコールと IoU 品質を高め、全体的な検出性能を強化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。