QUICK REVIEW

[論文レビュー] A Pursuit of Temporal Accuracy in General Activity Detection

Yuanjun Xiong, Yue Zhao|arXiv (Cornell University)|Mar 8, 2017

Human Pose and Action Recognition参考文献 32被引用数 130

ひとこと要約

本論文は untrimmed 動画における temporal action detection のための proposal-and-classification フレームワークを提案し、bottom-up 提案のための Temporal Actionness Grouping (TAG) を導入し、関連性と完全性を個別に扱う cascaded classifier を提案して、THUMOS14 および ActivityNet データセットで最先端の結果を達成します。

ABSTRACT

Detecting activities in untrimmed videos is an important but challenging task. The performance of existing methods remains unsatisfactory, e.g., they often meet difficulties in locating the beginning and end of a long complex action. In this paper, we propose a generic framework that can accurately detect a wide variety of activities from untrimmed videos. Our first contribution is a novel proposal scheme that can efficiently generate candidates with accurate temporal boundaries. The other contribution is a cascaded classification pipeline that explicitly distinguishes between relevance and completeness of a candidate instance. On two challenging temporal activity detection datasets, THUMOS14 and ActivityNet, the proposed framework significantly outperforms the existing state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling activities with various temporal structures.

研究の動機と目的

未 trim された動画内の活動を開始・終了時刻を正確に特定して検出するための汎用フレームワークを開発する。
完全なアクションと部分セグメントを区別する困難さと、異なるアクション長に対応する問題を克服する。
heavy parameter tuning なしで提案生成を効率化し、境界を正確にする。
提案の関連性と完全性を別個に評価する cascade classifier を活用する。
データセット間の異なる時系列構造に適応できることを示す。

提案手法

Per-snippet の actionness スコアに基づく bottom-up の class-agnostic な temporal proposals を生成する Temporal Actionness Grouping (TAG) を導入する。
Temporal Segment Networks を用いて foreground (action) や background としてスニペットをスコアリングする binary actionness classifier を訓練する。
高い actionness のスニペットを variable-length の proposals にグループ化し、多段階の閾値と耐性に基づく拡張で多様な durations を扱う。
二段階の cascaded classifier を適用する：まず背景 proposals を除外し、次にクラス固有の完全性フィルタを用いて incomplete または過長な proposals を破棄する。
スニペットレベルの activity scores を region-level の予測に集約し、完全性スコアと結合して最終検出信頼度 S_Det = P_a × exp(S_c) を形成する。
IOU 基準の positives と慎重に選択された negatives を用いて region proposals 上で TSN ベースの activity classifiers を訓練し、partial-action samples の混乱を避ける。
時間ピラミッド特徴と周囲の文脈手がかりを用いて completeness に対する class-specific SVM を訓練し、Hard negative mining を実施する。

実験結果

リサーチクエスチョン

RQ1bottom-up の actionness ベースの proposal generation (TAG) が、 duration が異なるアクション間で高い recall を持つ temporal proposals を生み出せるか。
RQ2関連性 (アクションクラス) と完全性 (完全なもの vs 部分) を分離する cascaded classification フレームワークが、時系列ローカリゼーションの精度を改善するか。
RQ3 THUMOS14 および ActivityNet で unseen なアクションクラスや異なる時系列構造に対して、アプローチがどれほど一般化するか。
RQ4 completeness フィルタリングにおける時系列文脈と前/後セグメント手がかりの影響はどれほどか。
RQ5より深いアクティビティ分類器や疎な proposals は、スライディングウィンドウや浅い proposals と比較して検出性能を改善するか。

主な発見

TAG は、THUMOS14 および ActivityNet において、他のスライディングウィンドウや疎な proposals と比較して、より少ない proposals でより高い recall を達成する。
actionness ベースの proposal 手法は unseen なクラスへ一般化し、データセット間で頑健性を維持する。
二段階 cascaded classification（まず activity classification、次に complete ness filtering）は、一段階やヒューリスティックな完全性手法よりも優れている。
ActivityNet v1.2 では、Activity classifiers（Inception-V3 vs BN-Inception）を深い CNN アーキテクチャで用いると検出性能が向上する。
提案された完全性フィルタは IOU が高いときに特に mAP を一貫して改善し、計算コストが軽い。
本フレームワークは THUMOS14 および ActivityNet において、平均および高 IOU の mAP の両方で従来法に対して大幅な改善を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。