QUICK REVIEW

[论文解读] Marginalized Average Attentional Network for Weakly-Supervised Learning

Yuan Yuan, Yueming Lyu|arXiv (Cornell University)|May 21, 2019

Neural Networks and Applications被引用 62

一句话总结

MAAN 引入边际平均聚合（MAA），以抑制弱监督时序动作定位中最显著片段的主导性，从而提升密集动作区域的定位。它提供一个端到端可训练的框架，具备理论保证和快速的 O(T^2) 计算。

ABSTRACT

In weakly-supervised temporal action localization, previous works have failed to locate dense and integral regions for each entire action due to the overestimation of the most salient regions. To alleviate this issue, we propose a marginalized average attentional network (MAAN) to suppress the dominant response of the most salient regions in a principled manner. The MAAN employs a novel marginalized average aggregation (MAA) module and learns a set of latent discriminative probabilities in an end-to-end fashion. MAA samples multiple subsets from the video snippet features according to a set of latent discriminative probabilities and takes the expectation over all the averaged subset features. Theoretically, we prove that the MAA module with learned latent discriminative probabilities successfully reduces the difference in responses between the most salient regions and the others. Therefore, MAAN is able to generate better class activation sequences and identify dense and integral action regions in the videos. Moreover, we propose a fast algorithm to reduce the complexity of constructing MAA from O($2^T$) to O($T^2$). Extensive experiments on two large-scale video datasets show that our MAAN achieves superior performance on weakly-supervised temporal action localization

研究动机与目标

在弱监督下推动密集且整体性动作区域的定位改进。
开发一个端到端可训练的聚合机制，降低最显著片段的支配。
提供理论分析，表明潜在判别概率保留部分序列顺序并抑制主导响应。
给出一种快速的多项式复杂度的边际聚合计算算法。
在 THUMOS14 与 ActivityNet1.3 数据集上展示优越性能。

提出的方法

引入 Marginalized Average Aggregation (MAA)，通过潜在概率 p_t 对子特征进行采样并对所有子集取期望。
将最终聚合表示为 E[ sum z_i x_i / sum z_i ]，其中 z_i ~ Bernoulli(p_i)。
证明性质：部分顺序保持（p_i 保持注意力顺序）与主导响应抑制（潜在概率降低响应之间的差距）。
推导一个快速的 O(T^2) 迭代算法来计算聚合，而非朴素的 O(2^T) 枚举。
将 MAA 集成到 MAAN 架构中，用 MAA 替换 STPN 聚合器并引入潜在判别概率 p_t；使用带有交叉熵损失的视频级标签进行端到端训练。
通过 s^c_t = p_t * sigmoid(w_c^T x_t) 产生时间 proposals 的类别激活序列 (CAS)。

实验结果

研究问题

RQ1在弱监督下，边际平均聚合（MAA 是否能够抑制主导响应并促进密集、整体性的动作区域？
RQ2相较于现有聚合器，MAAN 是否在标准基准上提升时序动作定位精度？
RQ3MAA 的计算开销是多少，是否能够高效地端到端训练？
RQ4潜在判别概率是否在降低对少数区域的过度强调的同时，保留有用的片段相关性排序？
RQ5在弱监督条件下，MAAN 在 THUMOS14 和 ActivityNet1.3 数据集上的表现如何？

主要发现

Table Headers	Table 1: MAAN vs baseline aggregators on THUMOS14 (test set)
Methods	AP@IoU	Cls mAP	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9	STPN	57.4	48.7	40.3	29.5	19.8	11.4	5.8	1.7	0.2	94.2
MAAN	59.8	50.8	41.1	30.6	20.3	12.0	6.9	2.6	0.2	94.1	-	-

MAAN 在 THUMOS14 上对不同 IoU 阈值的一致性优于基线聚合器。
MAAN 在 THUMOS14 上的 AP@IoU 与 Cls mAP 均高于 STPN 及其他基线（如 MAAN AP@IoU 59.8，Cl s mAP 50.8，在 IoU 0.1）。
归一化与 SoftMax 的分析表明，MAAN 的优势来自对子集的边际化而非简单加权，产生更密集、整合性更强的动作片段。
理论结果显示潜在概率对注意力具有保留部分顺序的性质，并降低最显著区域与其他区域之间的差距。
一个快速的迭代 O(T^2) 算法使 MAAN 的端到端训练成为现实。
在 THUMOS14 上，MAAN（我们的方法）在增加的 IoU 阈值下获得的 AP@IoU 值为 59.8、50.8、41.1、30.6、20.3、12.0、6.9，Cls mAP 为 94.1（表格所示）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。