QUICK REVIEW

[论文解读] 3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization

Sanath Narayan, Hisham Cholakkal|arXiv (Cornell University)|Aug 22, 2019

Human Pose and Action Recognition参考文献 33被引用 25

一句话总结

本文提出3C-Net，一种弱监督时序动作定位框架，利用视频级标签和动作计数来提升定位精度。通过联合优化分类损失、多标签中心损失和计数损失，该方法在THUMOS14上相比之前的工作实现了4.6%的绝对mAP提升。

ABSTRACT

Temporal action localization is a challenging computer vision problem with numerous real-world applications. Most existing methods require laborious frame-level supervision to train action localization models. In this work, we propose a framework, called 3C-Net, which only requires video-level supervision (weak supervision) in the form of action category labels and the corresponding count. We introduce a novel formulation to learn discriminative action features with enhanced localization capabilities. Our joint formulation has three terms: a classification term to ensure the separability of learned action features, an adapted multi-label center loss term to enhance the action feature discriminability and a counting loss term to delineate adjacent action sequences, leading to improved localization. Comprehensive experiments are performed on two challenging benchmarks: THUMOS14 and ActivityNet 1.2. Our approach sets a new state-of-the-art for weakly-supervised temporal action localization on both datasets. On the THUMOS14 dataset, the proposed method achieves an absolute gain of 4.6% in terms of mean average precision (mAP), compared to the state-of-the-art. Source code is available at https://github.com/naraysa/3c-net.

研究动机与目标

解决仅使用视频级标签和动作计数时弱监督时序动作定位的挑战。
通过增强全局和局部层次的特征可分性，提升定位精度。
克服现有方法依赖成对视频小批量或单标签中心损失的局限性。
通过引入基于类别的注意力特征聚合方法，使多标签中心损失适用于多样化小批量的有效训练。
利用动作计数信息，更好地在时间维度上分离相邻动作实例。

提出的方法

提出一种联合优化框架，结合分类损失、多标签中心损失和计数损失，用于弱监督动作定位。
应用基于类别的注意力特征聚合方法，将中心损失适配于多标签视频输入，减少类内差异。
引入计数损失项，最小化预测动作数与真实动作数之间的差异，以促进动作实例的正确分割。
采用双流I3D主干网络，通过晚期融合RGB与光流特征，并使用T-CAM进行类别特定激活映射。
仅在最终的T-CAM预测上应用计数损失，以保持时间一致性并提高定位精度。
在计数损失中使用相对误差，以更好地处理视频间动作频率的差异。

实验结果

研究问题

RQ1能否通过结合分类损失、中心损失和计数损失的联合损失形式，提升弱监督动作定位性能？
RQ2如何有效将中心损失适配于多标签视频输入的动作用定位任务？
RQ3视频级动作计数信息能否增强相邻动作实例在时间维度上的分离能力？
RQ4所提出方法是否能在无需成对视频小批量的情况下，泛化于多样化视频分布？
RQ5各损失组件对整体定位性能的贡献分别是什么？

主要发现

所提出的3C-Net在THUMOS14上相比之前最先进方法[16]实现了4.6%的绝对mAP提升。
在THUMOS14上，该方法将mAP从基线（仅使用分类损失）的19.1%提升至26.6%（3C-Net），实现了7.5%的绝对提升。
消融实验表明，若移除计数损失，mAP下降1.5%，证实其显著贡献。
使用相对误差的计数损失相比绝对误差，性能更优，mAP提升1.2%。
中心损失项贡献显著，当从RGB或流光流分支中移除时，mAP分别下降1.9%至2.5%。
定性结果表明，该方法在多个动作实例、视觉相似动作以及长时长活动上均表现出鲁棒的定位能力，包括具有重复动作的复杂情况。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。