[論文レビュー] LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization
本論文は、背景スコアに基づいて各スニペットごとに適応的閾値を予測する新しい手法LPATを提案する。これにより、手動による閾値チューニングが不要となり、弱教師付き時系列行動局所化の性能が向上する。新しい制約損失を用いて局所化と分類を同時に最適化することで、LPATはTHUMOS'14およびActivityNet1.2で最先端の性能を達成し、動画レベルのラベルのみを用いる。
Recently, Weakly-supervised Temporal Action Localization (WTAL) has been densely studied because it can free us from costly annotating temporal boundaries of actions. One prevalent strategy is obtaining action score sequences over time and then truncating segments of scores higher than a fixed threshold at every kept snippet. However, the threshold is not modeled in the training process and manually setting the threshold introduces expert knowledge, which damages the coherence of systems and makes it unfair for comparisons. In this paper, we propose to adaptively set the threshold at each snippet to be its background score, which can be learned to predict (LPAT). In both training and testing time, the predicted threshold is leveraged to localize action segments and the scores of these segments are allocated for video classification. We also identify an important constraint to improve the confidence of generated proposals, and model it as a novel loss term, which facilitates the video classification loss to improve models' localization ability. As such, our LPAT model is able to generate accurate action proposals with only video-level supervision. Extensive experiments on two standard yet challenging datasets, i.e., THUMOS'14 and ActivityNet1.2, show significant improvement over state-of-the-art methods.
研究の動機と目的
- 弱教師付き時系列行動局所化における手動で設定された閾値の必要性をなくし、バイアスの導入を回避するとともに、公平な比較を可能にする。
- 訓練中に閾値予測を学習することで、局所化モデルの整合性とエンドツーエンドの訓練を向上させる。
- 動画分類の目的関数と整合する新しい制約損失を通じて、提案の信頼性と局所化の正確性を向上させる。
- 動画レベルのアノテーションのみを用いて、標準ベンチマークで最先端の性能を達成する。
提案手法
- LPATは各スニペットに対して予測された背景スコアに基づき閾値を学習し、閾値のメカニズムをエンドツーエンドで訓練可能にする。
- モデルは予測された閾値を用いて、訓練時および推論時における高スコアの行動セグメントを切り詰める。
- 提案の信頼性を向上させるために、新しい制約損失を導入し、局所化と動画分類の間の関連性を強化する。
- 同じスコア系列を用いて、行動局所化と動画分類を同時に最適化する。
- 閾値予測は微分可能であり、バックプロパゲーションにより、同時に閾値と行動スコアヘッドの両方を最適化できる。
- フレームワークは動画レベルの監視のみを必要とし、境界ボックスアノテーションを含む弱教師付き局所化データセットの使用を回避する。
実験結果
リサーチクエスチョン
- RQ1適応的閾値学習は、手動によるチューニングなしに、弱教師付き時系列行動局所化の性能を向上させることができるか?
- RQ2予測された背景スコアとしての閾値の学習は、提案の品質とモデルの一般化能力にどのような影響を与えるか?
- RQ3新しい制約損失の導入は、提案の信頼性と分類をガイドする局所化にどのような影響を与えるか?
- RQ4動画レベルの監視のもとで、統合されたモデルが局所化と分類を同時に最適化できる範囲はどの程度か?
- RQ5THUMOS'14やActivityNet1.2といった標準ベンチマークにおいて、LPATは最先端の手法と比べてどのように差をつけるか?
主な発見
- LPATはTHUMOS'14データセットで最先端の性能を達成し、行動局所化の平均平均適合率において、先行手法を顕著に上回った。
- ActivityNet1.2では、既存の弱教師付きアプローチよりも顕著な改善を示し、多様なデータセットにわたる一般化能力を確認した。
- 提案された制約損失は、生成された行動提案の信頼性を効果的に高め、より信頼できる局所化結果をもたらした。
- エンドツーエンドで閾値を学習することで、LPATは専門家が定義した閾値の必要性を排除し、モデルの公平性と一貫性を向上させた。
- 共通のスコア系列を用いて局所化と分類を同時に最適化することで、両タスクの性能が向上し、統合的トレーニングの利点を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。