QUICK REVIEW

[論文レビュー] Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector

Jia-Xing Zhong, Nannan Li|arXiv (Cornell University)|Jul 9, 2018

Human Pose and Action Recognition参考文献 59被引用数 29

ひとこと要約

この論文では、分類と検出の間にある矛盾を克服するために、段階的に除去された動画セグメント上で反復的に分類器を訓練する弱教師付き時間的行動検出手法を提案する。複数の除去段階からの予測を収集し、完全結合条件付きランダムフィールド（FC-CRF）で精練することで、THUMOS'14 および ActivityNet で最先端の性能を達成し、多くの強教師付き手法を上回る。

ABSTRACT

Weakly supervised temporal action detection is a Herculean task in understanding untrimmed videos, since no supervisory signal except the video-level category label is available on training data. Under the supervision of category labels, weakly supervised detectors are usually built upon classifiers. However, there is an inherent contradiction between classifier and detector; i.e., a classifier in pursuit of high classification performance prefers top-level discriminative video clips that are extremely fragmentary, whereas a detector is obliged to discover the whole action instance without missing any relevant snippet. To reconcile this contradiction, we train a detector by driving a series of classifiers to find new actionness clips progressively, via step-by-step erasion from a complete video. During the test phase, all we need to do is to collect detection results from the one-by-one trained classifiers at various erasing steps. To assist in the collection process, a fully connected conditional random field is established to refine the temporal localization outputs. We evaluate our approach on two prevailing datasets, THUMOS'14 and ActivityNet. The experiments show that our detector advances state-of-the-art weakly supervised temporal action detection results, and even compares with quite a few strongly supervised methods.

研究の動機と目的

弱教師付き時間的行動検出における分類器（短く高精度なクリップを好む）と検出器（完全な行動セグメントを必要とする）の間にある本質的矛盾に対処すること。
トレーニング中に高信頼度クリップを段階的に除去することで、完全な行動インスタンスの検出を、境界アノテーションが存在しない状態で可能にすること。
時間的連続性を予測に強制する完全結合条件付きランダムフィールド（FC-CRF）を組み込むことで、検出のロバスト性と連続性を向上させること。
動画レベルのカテゴリラベルのみに依存するが、強教師付き手法と同等の性能を達成すること。

提案手法

複数の行動分類器を、非トリムド動画上で逐次的に訓練する。各分類器は、直前の分類器が特定した最も特徴的なクリップを除去した動画上で動作する。
除去プロセスは段階的に行われ、各新しい分類器が以前に見過ごされた低信頼度の行動スニペットを発見できるようにする。
推論時、すべての除去段階における分類器の検出結果を集約し、完全な行動セグメントの包括的予測を形成する。
完全結合条件付きランダムフィールド（FC-CRF）を適用して収集した予測を精練し、行動セグメントが時間的に連続的かつ滑らかであるという事前知識を活用する。
FC-CRFは、断片的な検出を再接続し、孤立した誤検出を抑制することで、局所化の正確性を向上させる。
本手法は動画レベルのラベルのみに依存し、弱教師付きプロポーザルや強教師付きラベルの必要性を回避する。

実験結果

リサーチクエスチョン

RQ1分類器が自然に短く高精度なスニペットを好む中で、弱教師付き検出器は完全な行動インスタンスをどのように特定できるか？
RQ2動画から高信頼度クリップを段階的に除去することで、次々に多様で補完的な行動セグメントを発見できるか？
RQ3完全結合CRFが弱教師付き設定において時間的連続性を強制することで、どの程度検出性能を向上させられるか？
RQ4標準ベンチマークにおいて、提案手法は最先端の弱教師付きおよび強教師付き手法と比較してどのように評価されるか？

主な発見

THUMOS'14では、IoU閾値0.1における平均平均精度（mAP）が45.8%に達し、すべての先行する弱教師付き手法を上回った。
ActivityNetでは、IoU 0.5におけるmAPが27.3%に達し、既存の弱教師付きアプローチを上回り、いくつかの強教師付き手法と同等またはそれを上回った。
2段階検出や複雑なプロポーザル生成を用いる最先端の強教師付きモデルでさえも、本手法は同等の結果を達成した。
FC-CRFは、散らかったまたは孤立した検出が見られる状況において特に顕著に、ノイズを低減し、断片的な予測を再接続することで検出品質を著しく向上させた。
アブレーションスタディにより、段階的除去が多様な行動スニペットを発見するために不可欠であることが確認された。このメカニズムを除去すると、重複した不完全な検出が生じた。
本モデルは、複雑または非一様な時間的構造を持つ行動カテゴリに対しても良好に一般化でき、曖昧な行動を含む定性的な失敗事例からもその汎用性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。