QUICK REVIEW

[论文解读] Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector

Jia-Xing Zhong, Nannan Li|arXiv (Cornell University)|Jul 9, 2018

Human Pose and Action Recognition参考文献 59被引用 29

一句话总结

本文提出了一种弱监督时序动作检测方法，通过逐步侵蚀视频片段来迭代训练分类器，以缓解分类与检测之间的冲突。通过收集多个擦除步骤的预测结果，并利用全连接条件随机场（FC-CRF）进行优化，该模型在THUMOS'14和ActivityNet数据集上取得了最先进性能，优于许多强监督方法。

ABSTRACT

Weakly supervised temporal action detection is a Herculean task in understanding untrimmed videos, since no supervisory signal except the video-level category label is available on training data. Under the supervision of category labels, weakly supervised detectors are usually built upon classifiers. However, there is an inherent contradiction between classifier and detector; i.e., a classifier in pursuit of high classification performance prefers top-level discriminative video clips that are extremely fragmentary, whereas a detector is obliged to discover the whole action instance without missing any relevant snippet. To reconcile this contradiction, we train a detector by driving a series of classifiers to find new actionness clips progressively, via step-by-step erasion from a complete video. During the test phase, all we need to do is to collect detection results from the one-by-one trained classifiers at various erasing steps. To assist in the collection process, a fully connected conditional random field is established to refine the temporal localization outputs. We evaluate our approach on two prevailing datasets, THUMOS'14 and ActivityNet. The experiments show that our detector advances state-of-the-art weakly supervised temporal action detection results, and even compares with quite a few strongly supervised methods.

研究动机与目标

为解决弱监督时序动作检测中分类器（倾向于选择短而高准确率的片段）与检测器（需要完整动作片段）之间的固有冲突。
通过在训练过程中逐步移除高置信度片段，实现在无真实边界标注的情况下检测完整动作实例。
通过引入全连接条件随机场（FC-CRF）以增强预测的时间连贯性，提升检测的鲁棒性与连续性。
在仅依赖视频级别类别标签的前提下，实现与强监督方法相当的性能。

提出的方法

一系列动作分类器在未剪辑视频上按顺序训练，每个后续分类器在前一分类器识别出最具判别性的片段后被移除的视频上进行训练。
擦除过程分步进行，迫使每个新分类器发现此前被忽略的、置信度较低的动作片段。
在推理阶段，收集所有擦除步骤中各分类器的检测结果，形成对完整动作片段的综合预测。
应用全连接条件随机场（FC-CRF）对收集到的预测结果进行优化，利用动作片段应具有时间连续性和平滑性的先验知识。
FC-CRF有助于重新连接断裂的检测结果并抑制孤立的误报，从而提升定位精度。
该方法仅依赖视频级别标签，无需弱监督提议或强监督信号。

实验结果

研究问题

RQ1当分类器天然倾向于选择短而高准确率的片段时，如何训练弱监督检测器以定位完整动作实例？
RQ2通过逐步擦除视频中的高置信度片段，是否能促使后续分类器发现更加多样化且互补的动作片段？
RQ3在弱监督设置下，全连接条件随机场在强制预测具备时间连续性方面，能在多大程度上提升检测性能？
RQ4所提出方法在标准基准测试上与最先进弱监督及强监督方法相比表现如何？

主要发现

在THUMOS'14上，所提方法在IoU阈值为0.1时达到45.8%的平均平均精度（mAP），超越所有先前的弱监督方法。
在ActivityNet上，模型在IoU为0.5时取得27.3%的mAP，优于现有弱监督方法，并与若干强监督方法相当或更优。
即使与最先进的强监督模型相比，该方法也取得了具有竞争力的结果，包括采用两阶段检测或复杂提议生成的模型。
FC-CRF显著提升了检测质量，通过减少噪声并重新连接断裂的预测，尤其在检测结果零散或孤立的情况下效果明显。
消融实验表明，分步擦除机制对发现多样化动作片段至关重要，若移除该机制将导致冗余且不完整的检测结果。
该模型在多种动作类别上泛化能力良好，包括具有复杂或非均匀时间结构的动作，如在涉及模糊动作的定性失败案例中所展示的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。