[论文解读] A Pursuit of Temporal Accuracy in General Activity Detection
该论文提出一个用于未裁剪视频的时序动作检测的提案与分类框架,引入 Temporal Actionness Grouping (TAG) 作为自下而上的提案,以及一个级联分类器来分别处理相关性与完整性,在 THUMOS14 和 ActivityNet 数据集上实现了最先进的结果。
Detecting activities in untrimmed videos is an important but challenging task. The performance of existing methods remains unsatisfactory, e.g., they often meet difficulties in locating the beginning and end of a long complex action. In this paper, we propose a generic framework that can accurately detect a wide variety of activities from untrimmed videos. Our first contribution is a novel proposal scheme that can efficiently generate candidates with accurate temporal boundaries. The other contribution is a cascaded classification pipeline that explicitly distinguishes between relevance and completeness of a candidate instance. On two challenging temporal activity detection datasets, THUMOS14 and ActivityNet, the proposed framework significantly outperforms the existing state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling activities with various temporal structures.
研究动机与目标
- 开发一个通用框架,在未裁剪的视频中检测活动,提供准确的开始和结束时间。
- 克服将完整动作与部分片段区分开来以及处理不同动作持续时间的困难。
- 改进提案生成,使其高效且边界准确,并且无需大量参数调整。
- 利用级联分类器分别评估提案的相关性和完整性。
- 展示对不同数据集中的时序动作结构的适应能力。
提出的方法
- 引入 Temporal Actionness Grouping (TAG),基于逐片段的 actionness 得分生成自下而上的、与类别无关的时序提案。
- 使用 Temporal Segment Networks 训练二元 actionness 分类器,将片段评分为前景(动作)或背景。
- 将高 actionness 的片段分组为变长提案,具有多阈值和基于公差的扩展以适应多样化时长。
- 应用两阶段级联分类器:先去除背景提案,然后使用类别特定的完整性筛选器来淘汰不完整或过长的提案。
- 将片段级活动分数汇聚为区域级预测,并与完整性分数融合,形成最终检测置信度 S_Det = P_a × exp(S_c)。
- 在区域提案上训练活动分类器(基于 TSN),以基于 IOU 的正样本和精心选择的负样本来避免混淆的部分动作样本。
- 使用时间金字塔特征和周边上下文线索来训练针对完整性的类别特定 SVM,并进行困难负样本挖掘。
实验结果
研究问题
- RQ1基于动作量度的自下而上提案生成(TAG)是否能够在不同持续时间的动作中产生高召回率的时序提案?
- RQ2分离相关性(动作类别)和完整性(完整 vs 部分)的级联分类框架是否能提高时序定位的准确性?
- RQ3该方法对未知动作类别和不同数据集中的时序结构(THUMOS14 与 ActivityNet)在泛化方面表现如何?
- RQ4时序上下文和前/后段线索对完整性筛选有什么影响?
- RQ5相比滑动窗口和浅层提案,使用更深的活动分类器和稀疏提案是否能提升检测性能?
主要发现
- 在 THUMOS14 和 ActivityNet 上,TAG 相比滑动窗口和其他稀疏提案,在更少的提案下实现更高的召回率。
- 基于 actionness 的提案方案对未见类具有泛化能力,并在不同数据集中保持鲁棒性。
- 两阶段级联分类(先进行活动分类,再进行完整性筛选)优于单阶段或启发式完整性方法。
- 在 ActivityNet v1.2 上,使用更深的 CNN 架构进行活动分类(Inception-V3 与 BN-Inception)可以提升检测性能。
- 所提的完整性筛选在 mAP 上持续提升,尤其在较高 IOU 阈值时,并且计算开销较小。
- 该框架在 THUMOS14 和 ActivityNet 上在平均和高 IOU mAP 都对比以往方法实现了显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。