Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Convolution Based Action Proposal: Submission to ActivityNet 2017

Tianwei Lin, Xu Zhao|arXiv (Cornell University)|Jul 21, 2017
Human Pose and Action Recognition参考文献 14被引用数 63
ひとこと要約

本論文は、時系列畳み込みとアンカー機構に基づく時系列アクション提案モデル(Prop-SSAD)を提案し、TAG提案と境界の洗練化を組み合わせて、ActivityNet 2017における提案と局在化の両方のタスクで最新の結果を達成する。

ABSTRACT

In this notebook paper, we describe our approach in the submission to the temporal action proposal (task 3) and temporal action localization (task 4) of ActivityNet Challenge hosted at CVPR 2017. Since the accuracy in action classification task is already very high (nearly 90% in ActivityNet dataset), we believe that the main bottleneck for temporal action localization is the quality of action proposals. Therefore, we mainly focus on the temporal action proposal task and propose a new proposal model based on temporal convolutional network. Our approach achieves the state-of-the-art performances on both temporal action proposal task and temporal action localization task.

研究の動機と目的

  • 未加工ビデオにおける時系列アクション局在化の主なボトルネックが提案品質であることを動機づける。
  • アンカー機構を用いた時系列畳み込みに基づく提案モデル(Prop-SSAD)を導入する。
  • Temporal Actionness Grouping (TAG)で提案を補強し、境界を洗練化して高いIoUでリコールを向上させる。
  • ActivityNet 2017の時系列アクション提案と局在化の両タスクで最先端の性能を示す。
  • ビデオレベル分類結果を用いることで競争力のある時系列アクション局在化結果を得られることを示す。

提案手法

  • 未加工ビデオからスニペットレベルの二-stream特徴量(外観と動き)を抽出し、長さを256にリサイズする。
  • Prop-SSADを用いる。複数の時系列特徴マップ(長さが1,2,4,8,16,32,64の7つのマップ)を使用して、アクションの有無と境界を予測する時系列アンカーベースの検出器。
  • 提案に対してオーバーラップ損失で訓練し、初期分類なしでアンカーに基づく予測を用いて提案を形成する。
  • MLPを用いたTemporal Actionness Grouping (TAG)を実装し、アクションネススコアを生成して追加の提案を生成する。
  • 最大IoU > 0.75を持つTAG提案と置換することでProp-SSADの境界を洗練化し、洗練化された提案を得る。
  • 局在化のため、ビデオレベル分類結果を用いて提案にビデオレベルのアクションカテゴリを割り当て、IoU閾値を跨ぐ標準的なmAPで評価する。

実験結果

リサーチクエスチョン

  • RQ1外部データを用いずに、時系列畳み込み・アンカーベースのフレームワーク(Prop-SSAD)が高品質な時系列アクション提案を生成できるか?
  • RQ2Prop-SSAD提案とTAG提案を組み合わせると、特に高いIoU閾値で提案のリコールが向上するか?
  • RQ3洗練化された境界はActivityNet 2017の時系列アクション局在化性能にどの程度影響するか?
  • RQ4ActivityNet 2017内で提案フレームワークのエンドツーエンド訓練は実現可能で有益か?

主な発見

手法AR@10AR@100AR-AN
一様乱数(ベースライン)29.0255.7144.88
Prop-SSAD50.4469.5461.52
Refined Prop-SSAD52.5073.0164.40
  • Prop-SSADはベースラインを上回り、TAGの洗練化によりリコールが改善され、特に高いIoU閾値で顕著。
  • 洗練化されたProp-SSADはProp-SSADよりAR-ANスコアが高くなる(例:Table 1でAR-ANが61.52から64.40に改善)。
  • TAGで洗練化された提案は、ビデオレベル分類結果と組み合わせた場合、局在化結果を向上させる。
  • 検証セットでは、局在化結果はIoU閾値を跨るmAPで従来法と比較して競争力があるまたは優れており、テストセットの平均mAPは32.26といくつかのベースラインより顕著に高い。
  • 最初のN提案を局在化に使用すると、局在化mAPは初期提案の品質の高さから利益を得ることを示す(例:Ours@1–Ours@100は段階的な改善を示す)。
  • 本研究は、アンカーメカニズムと時系列畳み込みが時系列アクション提案タスクに有効であると結論づけている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。