QUICK REVIEW

[论文解读] Weakly Supervised Action Labeling in Videos Under Ordering Constraints

Piotr Bojanowski, Rémi Lajugie|arXiv (Cornell University)|Jul 4, 2014

Human Pose and Action Recognition参考文献 1被引用 44

一句话总结

该论文提出了一种弱监督方法，仅利用剧本式注释中的动作顺序约束，实现视频中的时序动作定位。通过在时序顺序约束下联合学习动作分类器并为视频片段分配标签，该方法在大规模好莱坞视频数据集上实现了最先进性能，即使仅25%的数据被完全标注，其表现也优于完全监督基线方法。

ABSTRACT

We are given a set of video clips, each one annotated with an {\em ordered} list of actions, such as "walk" then "sit" then "answer phone" extracted from, for example, the associated text script. We seek to temporally localize the individual actions in each clip as well as to learn a discriminative classifier for each action. We formulate the problem as a weakly supervised temporal assignment with ordering constraints. Each video clip is divided into small time intervals and each time interval of each video clip is assigned one action label, while respecting the order in which the action labels appear in the given annotations. We show that the action label assignment can be determined together with learning a classifier for each action in a discriminative manner. We evaluate the proposed model on a new and challenging dataset of 937 video clips with a total of 787720 frames containing sequences of 16 different actions from 69 Hollywood movies.

研究动机与目标

解决仅依赖电影剧本中的动作顺序信息，实现视频中时序动作定位的最小人工标注挑战。
通过利用弱监督信号，克服完全监督方法需要昂贵时间戳注释的局限性。
将动作标注问题建模为在顺序约束下对动作分类器和时序分配的联合优化。
证明时序顺序约束即使在完全监督有限的情况下，也能显著提升模型性能。
在包含937个好莱坞视频片段、16种动作和787,720帧的大型真实数据集上评估该方法，展示其在弱监督下的强泛化能力。

提出的方法

将每个视频片段建模为一系列短时序片段（帧），为每个片段分配一个动作标签，同时尊重剧本中动作的顺序。
将学习问题表述为一种判别性优化，联合学习动作分类器并施加时序顺序约束下的标签分配。
采用基于Frank-Wolfe算法的凸优化框架，最小化一个成本函数，以强制实现正确的动作顺序并提升分类器的判别能力。
在半监督设置中同时引入弱监督（动作顺序）和可选的部分完全监督（时间戳注释）。
通过从优化解中推导出的闭式表达式，从最优分配矩阵估计隐式动作分类器。
采用平方损失基线进行对比，该基线仅使用完全标注数据，未利用顺序约束。

实验结果

研究问题

RQ1仅从弱标注剧本中获取的时序顺序约束，是否能在不依赖时间戳注释的情况下，提升视频中的动作定位与分类性能？
RQ2当仅有一小部分数据被完全标注时，利用动作顺序的弱监督方法性能与完全监督基线相比如何？
RQ3在结合弱监督时，顺序约束在多大程度上能增强分类器的学习？
RQ4对动作分类器和时序标签分配进行联合优化，是否能优于将分类与定位分开处理的方法？
RQ5所提出的方法在包含多样化动作序列的复杂真实世界好莱坞电影视频数据上是否具有良好的泛化能力？

主要发现

当仅25%的数据被完全标注时，所提方法优于完全监督基线（使用平方损失），证明了顺序约束下弱监督的价值。
平均而言，该方法在“开门”、“坐下”和“起立”等最常见动作上的对齐准确率高于基线方法。
在半监督设置下，即使全标注数据有限，该模型也持续优于监督基线（SL），表明顺序约束能提升学习效率。
与Bojanowski等人基线相比，该方法显著提升性能，后者缺乏顺序约束，在弱监督下表现较差。
恢复得到的分类器在平均精确率上优于监督基线和Bojanowski等人基线，尤其在弱监督设置下表现更优。
采用Frank-Wolfe算法实现了无需投影步骤的高效优化，支持大规模视频数据集的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。