Skip to main content
QUICK REVIEW

[論文レビュー] UntrimmedNets for Weakly Supervised Action Recognition and Detection

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|Mar 9, 2017
Human Pose and Action Recognition参考文献 52被引用数 32
ひとこと要約

本稿では、動画レベルのラベルのみを用いて、非トリム動画から直接アクション認識および検出モデルを学習するエンドツーエンドで弱教師付きの深層学習アーキテクチャであるUntrimmedNetを提案する。分類モジュールと選択モジュール(ハードまたはソフトアテンションを介して)を同時に最適化することで、時間的アノテーションを一切持たないにもかかわらず、THUMOS14およびActivityNetで最先端の性能を達成した。

ABSTRACT

Current action recognition methods heavily rely on trimmed videos for model training. However, it is expensive and time-consuming to acquire a large-scale trimmed video dataset. This paper presents a new weakly supervised architecture, called UntrimmedNet, which is able to directly learn action recognition models from untrimmed videos without the requirement of temporal annotations of action instances. Our UntrimmedNet couples two important components, the classification module and the selection module, to learn the action models and reason about the temporal duration of action instances, respectively. These two components are implemented with feed-forward networks, and UntrimmedNet is therefore an end-to-end trainable architecture. We exploit the learned models for action recognition (WSR) and detection (WSD) on the untrimmed video datasets of THUMOS14 and ActivityNet. Although our UntrimmedNet only employs weak supervision, our method achieves performance superior or comparable to that of those strongly supervised approaches on these two datasets.

研究の動機と目的

  • アクション認識のためのトリム済み動画データセットを収集する際の高コストおよび現実的でない時間的アノテーションの必要性に対処する。
  • 非トリム動画から動画レベルのラベルのみを用いて、アクションモデルを直接学習する弱教師付き学習フレームワークを開発する。
  • 真の境界情報が不要な状態で、アクション分類のための視覚的表現とアクションインスタンスの時間的局在化の両方を同時に学習する。
  • 弱教師付き学習が、時間的アノテーションを必要としない状況下でも、強教師付き学習と同等またはそれを上回る性能を示すことを実証する。

提案手法

  • UntrimmedNetは、均等またはショットベースのサンプリングを用いて、非トリム動画からクリップ候補を生成する。
  • 分類モジュールは、標準的なソフトマックス分類器を用いて、各クリップ候補のアクションスコアを予測する。
  • 選択モジュールは、ハード選択(トップ-kプーリング)またはソフト選択(学習されたアテンション重み)を用いて、最も特徴的なクリップを特定する。
  • 分類モジュールと選択モジュールの出力を重み付き和算により融合し、動画レベルの予測を生成する。
  • 全ネットワークをバックプロパゲーションを用いてエンドツーエンドで学習し、動画レベルのラベルを教師信号として用いる。
  • 本手法は、THUMOS14およびActivityNetで弱教師付き学習を評価し、アテンション重みとスコアのしきい値処理により検出を実施する。

実験結果

リサーチクエスチョン

  • RQ1時間的アノテーションが一切ない非トリム動画上で、アクション認識および検出を効果的に学習できるか?
  • RQ2分類モジュールと選択モジュールの共同最適化が、弱教師付き設定下での性能向上に寄与するか?
  • RQ3弱教師付きモデルが、非トリム動画ベンチマークで強教師付きモデルと同等またはそれを上回る性能を達成できるか?
  • RQ4動画レベルのラベルのみが利用可能な状況下で、アテンション機構が非トリム動画内のアクションインスタンスをどの程度正確に局在化できるか?

主な発見

  • THUMOS14データセットでは、前人より3.7%高い平均平均精度(mAP)を達成したが、これは弱教師付き学習にとどまっている。
  • ActivityNetデータセットでは、弱教師付き条件下で、先行の最先端手法よりも2.5%高いmAPを達成した。
  • UntrimmedNetのソフト選択バージョンは、THUMOS14でIoU閾値0.1の条件下で44.4%のmAPを達成し、強教師付き手法と同等の性能を示した。
  • アテンション重みの可視化により、モデルがアクション関連のフレームを適切に強調し、静止または関係のない背景フレームを効果的に抑制していることが確認された。
  • アブレーションスタディにより、分類モジュールと選択モジュールの共同学習が性能向上に不可欠であることが確認され、各モジュールを別々に最適化するベースラインよりも優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。