QUICK REVIEW

[論文レビュー] Marginalized Average Attentional Network for Weakly-Supervised Learning

Yuan Yuan, Yueming Lyu|arXiv (Cornell University)|May 21, 2019

Neural Networks and Applications被引用数 62

ひとこと要約

MAANは、弱監視型の時間アクション局在化において最も顕著な断片の支配を抑制するための周辺化平均集計（MAA）を導入し、密度の高いアクション領域の局在化を改善します。エンドツーエンドの学習可能なフレームワークと理論的保証、および高速な O(T^2) 計算を提供します。

ABSTRACT

In weakly-supervised temporal action localization, previous works have failed to locate dense and integral regions for each entire action due to the overestimation of the most salient regions. To alleviate this issue, we propose a marginalized average attentional network (MAAN) to suppress the dominant response of the most salient regions in a principled manner. The MAAN employs a novel marginalized average aggregation (MAA) module and learns a set of latent discriminative probabilities in an end-to-end fashion. MAA samples multiple subsets from the video snippet features according to a set of latent discriminative probabilities and takes the expectation over all the averaged subset features. Theoretically, we prove that the MAA module with learned latent discriminative probabilities successfully reduces the difference in responses between the most salient regions and the others. Therefore, MAAN is able to generate better class activation sequences and identify dense and integral action regions in the videos. Moreover, we propose a fast algorithm to reduce the complexity of constructing MAA from O($2^T$) to O($T^2$). Extensive experiments on two large-scale video datasets show that our MAAN achieves superior performance on weakly-supervised temporal action localization

研究の動機と目的

弱監視下での密度が高く全体性のあるアクション領域の局在化を改善する動機付け。
最も顕著な断片の支配を減らすエンドツーエンド学習可能な集計機構を開発する。
潜在的識別確率が部分順序を保持し支配的応答を抑制することを示す理論分析を提供する。
多項式計算量で周辺化集計を計算する高速アルゴリズムを提供する。
THUMOS14およびActivityNet1.3データセットで優れた性能を示す。

提案手法

潜在確率 p_t によってサブセット特徴をサンプリングし、すべてのサブセットの期待値を計算する周辺化平均集計（MAA）を導入する。
最終的な集計を E[ sum z_i x_i / sum z_i ] と表現し、z_i ~ Bernoulli(p_i) とする。
性質を証明する：部分順序の保持（p_i が注意の順序を保持）と支配応答の抑制（潜在確率が応答間のギャップを縮小）。
Naive な O(2^T) の列挙の代わりに、集計を計算する高速な O(T^2) の反復アルゴリズムを導出する。
MAAをMAANアーキテクチャに組み込み、STPNのアグリゲータをMAAと潜在識別確率 p_tに置換し、クロスエントロピー損失を用いて動画レベルラベルでエンドツーエンド学習する。
時系列プロポーザルのクラス活性化シーケンスを s^c_t = p_t * sigmoid(w_c^T x_t) によって生成する。

実験結果

リサーチクエスチョン

RQ1MAA は弱監督下で支配的応答を抑制し、密度の高い全体的アクション領域を促進できるか？
RQ2MAAN は既存の集計器と比較して標準ベンチマークで時間アクション局在化の精度を向上させるか？
RQ3MAA の計算コストはどのくらいかつエンドツーエンドで効率的に訓練できるか？
RQ4潜在識別確率は、数箇所の領域への過度な強調を減らしつつ、断片の関連性の有用な秩序を保つか？
RQ5MAAN は弱監督下で THUMOS14 と ActivityNet1.3 データセットでどのように性能を発揮するか？

主な発見

表のヘッダ	Table 1: MAAN vs baseline aggregators on THUMOS14 (test set)
Methods	AP@IoU	Cls mAP	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9	STPN	57.4	48.7	40.3	29.5	19.8	11.4	5.8	1.7	0.2	94.2
MAAN	59.8	50.8	41.1	30.6	20.3	12.0	6.9	2.6	0.2	94.1	-	-

MAAN は THUMOS14 において IoU 閾値を跨いで一貫してベースラインの集計器を上回る。
MAAN は THUMOS14 で STPN および他のベースラインより高い AP@IoU と Cls mAP を達成（例: MAAN AP@IoU 59.8、Cls mAP 50.8、IoU 0.1時）。
正規化の分析では、MAAN の利点は単純なウェイティングよりもサブセットの周辺化に起因し、より密で全体的なアクションセグメントを生み出す。
理論的結果は、潜在確率が注意に関する部分順序を保持し、最も顕著な領域と他の領域とのギャップを縮小することを示す。
高速な反復 O(T^2) アルゴリズムにより、MAAN の実用的なエンドツーエンド訓練が可能になる。
THUMOS14 で、MAAN（本手法）は IoU 阈値の増加に伴い 59.8, 50.8, 41.1, 30.6, 20.3, 12.0, 6.9 の AP@IoU 値を達成し、Cls mAP は 94.1（表に記載のとおり）となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。