[論文レビュー] Weakly Supervised Action Localization by Sparse Temporal Pooling Network
本論文は Sparse Temporal Pooling Network(STPN)を提案する。これは動画レベルのラベルを用いて非トリミング動画の動作を局在化する、 sparsity 主導のアテンション機構を用いた弱教師あり手法で、Temporal Class Activation Maps (T-CAMs) を介して時系列提案を生成する。
We propose a weakly supervised temporal action localization algorithm on untrimmed videos using convolutional neural networks. Our algorithm learns from video-level class labels and predicts temporal intervals of human actions with no requirement of temporal localization annotations. We design our network to identify a sparse subset of key segments associated with target actions in a video using an attention module and fuse the key segments through adaptive temporal pooling. Our loss function is comprised of two terms that minimize the video-level action classification error and enforce the sparsity of the segment selection. At inference time, we extract and score temporal proposals using temporal class activations and class-agnostic attentions to estimate the time intervals that correspond to target actions. The proposed algorithm attains state-of-the-art results on the THUMOS14 dataset and outstanding performance on ActivityNet1.3 even with its weak supervision.
研究の動機と目的
- 動画レベルのラベルのみを用いて、非トリミング動画内の動作を局在化する学習を動機づける。
- アクション認識のために、動画の重要な区間の稀なサブセットを選択するネットワークを開発する。
- クラス非依存アテンションと時間的クラス活性化を融合してアクション区間を提案する。
提案手法
- Kinetics で事前学習済みの二系統 I3D 特徴抽出器(RGB とフロー)を用いて動画区間を表現する。
- アテンションモジュールがセグメントレベルの重みを生成し、稀疎性ロスがセグメントの稀な選択を強制する。
- 動画レベルの分類は、セグメント特徴のアテンション加重時系列プーリングによって行われる。
- 各クラスに対して Temporal Class Activation Maps (T-CAMs) を計算し、一次元の時間的提案を形成する。
- 加重された T-CAMs は RGB とフローを融合パラメータ alpha で組み合わせて提案をスコアリングする。
- クラスごとに時間的提案へ非最大抑制を適用する。
実験結果
リサーチクエスチョン
- RQ1動画レベルのラベルのみで非トリミング動画内の動作を正確に局在化できるか?
- RQ2セグメント選択における稀疎性の強制は、弱教師ありアクション局在化を改善するか?
- RQ3クラス非依存アテンションと組み合わせた Temporal Class Activation Maps (T-CAMs) は、アクション区間の提案にどれほど有効か?
- RQ4提案のスコアリングにおいて RGB、フロー、またはそれらの組み合わせを用いることの影響は何か?
主な発見
| Method | AP@IoU=0.1 | AP@IoU=0.2 | AP@IoU=0.3 | AP@IoU=0.4 | AP@IoU=0.5 | AP@IoU=0.6 | AP@IoU=0.7 | AP@IoU=0.8 | AP@IoU=0.9 |
|---|---|---|---|---|---|---|---|---|---|
| STPN | 52.0 | 44.7 | 35.5 | 25.8 | 16.9 | 9.9 | 4.3 | 1.2 | 0.1 |
| STPN with UntrimmedNet features | 45.3 | 38.8 | 31.1 | 23.5 | 16.2 | 9.8 | 5.1 | 2.0 | 0.3 |
- STPN は THUMOS14 において弱教師あり手法の中で最先端の結果を達成する。
- THUMOS14 では、UntrimmedNet 特徴を用いた STPN が従来の弱教師あり手法を上回る。
- ActivityNet1.3 では、STPN は競争力のある弱教師あり性能を示し、特定の設定でいくつかの完全教師ありベースラインを上回る。
- アブレーション研究は、アテンション機構と稀疎性ロスの両方が性能を大幅に向上させることを示す。
- 二系統(RGB+フロー)特徴は単一モダリティより優れており、フローが局在化のためのより強い手掛かりを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。