Skip to main content
QUICK REVIEW

[论文解读] Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning

Zhekun Luo, Devin Guillory|arXiv (Cornell University)|Mar 31, 2020
Human Pose and Action Recognition参考文献 44被引用 25
一句话总结

该论文提出了一种期望最大化多实例学习(EM-MIL)框架,用于弱监督动作定位,通过将关键实例分配显式建模为隐藏变量,更好地符合多实例学习(MIL)假设。通过在期望步骤(E-step)和最大化步骤(M-step)中交替优化关键实例的伪标签与分类任务,该方法在THUMOS14和ActivityNet1.2上实现了最先进性能,通过显式建模背景一致性,避免了对MIL原则的隐式违反,优于基于注意力机制的基线模型。

ABSTRACT

Weakly-supervised action localization requires training a model to localize the action segments in the video given only video level action label. It can be solved under the Multiple Instance Learning (MIL) framework, where a bag (video) contains multiple instances (action segments). Since only the bag's label is known, the main challenge is assigning which key instances within the bag to trigger the bag's label. Most previous models use attention-based approaches applying attentions to generate the bag's representation from instances, and then train it via the bag's classification. These models, however, implicitly violate the MIL assumption that instances in negative bags should be uniformly negative. In this work, we explicitly model the key instances assignment as a hidden variable and adopt an Expectation-Maximization (EM) framework. We derive two pseudo-label generation schemes to model the E and M process and iteratively optimize the likelihood lower bound. We show that our EM-MIL approach more accurately models both the learning objective and the MIL assumptions. It achieves state-of-the-art performance on two standard benchmarks, THUMOS14 and ActivityNet1.2.

研究动机与目标

  • 解决基于注意力机制的弱监督动作定位模型隐式违反MIL假设的问题,即对负样本袋(negative bags)应用注意力机制。
  • 通过在MIL框架中将关键实例分配显式建模为隐藏变量,提升定位精度。
  • 设计一种更符合弱监督视频动作定位中正样本袋与负样本袋真实数据生成过程的训练流程。
  • 在保持简单架构的同时,在标准基准上实现最先进性能。

提出的方法

  • 提出双分支架构:关键实例分配分支(qϕ)与分类分支(pθ),通过EM算法交替优化。
  • 引入两种新型伪标签生成方案——一种用于E-step(关键实例分配),一种用于M-step(分类),两者均源自MIL目标函数的似然下界。
  • 采用交替训练策略:冻结qϕ以使用伪标注的关键实例训练pθ,随后冻结pθ以优化qϕ,迭代提升似然下界。
  • 显式将负样本袋建模为均匀负样本,避免基于注意力模型倾向于将注意力分配给非动作片段的倾向。
  • 使用固定的I3D特征作为输入,专注于学习基于MIL的实例分配头与分类头。
  • 通过分类得分与关键实例分配得分的加权组合生成最终定位预测,其中超参数λ根据数据集进行调优。

实验结果

研究问题

  • RQ1在EM框架中显式将关键实例分配建模为隐藏变量,是否相比基于注意力机制的MIL方法能提升定位精度?
  • RQ2基于注意力机制的模型在多大程度上违反了MIL假设中‘负样本袋仅包含均匀负样本’的条件?
  • RQ3EM-MIL方法是否能更好地建模弱监督动作定位中正样本袋与负样本袋的真实数据生成过程?
  • RQ4EM-MIL框架在标准基准上的性能与最先进弱监督方法相比如何?

主要发现

  • 所提出的EM-MIL模型在THUMOS14基准上实现了30.5%的mAP@0.5的最先进性能,优于先前方法。
  • 在ActivityNet1.2上,模型达到37.4%的mAP@0.5、23.1%的mAP@0.7和2.0%的mAP@0.9,位列最优秀的弱监督方法之列。
  • 消融实验表明,包含伪标签与交替训练的完整EM-MIL框架将THUMOS14上的mAP@0.5从24.5%提升至30.5%,验证了所提组件的有效性。
  • 在ActivityNet1.2上,模型对分类得分的依赖性增强(λ=0.7 for P_t,c),表明分类性能在此数据集上是瓶颈;而THUMOS1.4上关键实例分配更为关键(λ=0.8),说明任务特性存在差异。
  • 该方法明确避免对负样本袋施加注意力,更符合MIL假设,减少了假阳性提议。
  • 可视化结果表明,该模型生成的行动提议比基于注意力的模型更完整,后者常遗漏动作的某些部分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。