QUICK REVIEW

[论文解读] Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

Zheng Shou, Dongang Wang|arXiv (Cornell University)|Jan 9, 2016

Human Pose and Action Recognition被引用 175

一句话总结

本文提出一个 Segment-CNN 框架，包含用于在未裁剪视频中定位动作的 proposal、classification 与 localization 网络，利用 3D ConvNets 进行定位，在 MEXaction2 和 THUMOS 2014 上实现了显著的 mAP 提升。

ABSTRACT

We address temporal action localization in untrimmed long videos. This is important because videos in real applications are usually unconstrained and contain multiple action instances plus video content of background scenes or other activities. To address this challenging issue, we exploit the effectiveness of deep networks in temporal action localization via three segment-based 3D ConvNets: (1) a proposal network identifies candidate segments in a long video that may contain actions; (2) a classification network learns one-vs-all action classification model to serve as initialization for the localization network; and (3) a localization network fine-tunes on the learned classification network to localize each action instance. We propose a novel loss function for the localization network to explicitly consider temporal overlap and therefore achieve high temporal localization accuracy. Only the proposal network and the localization network are used during prediction. On two large-scale benchmarks, our approach achieves significantly superior performances compared with other state-of-the-art systems: mAP increases from 1.7% to 7.4% on MEXaction2 and increases from 15.0% to 19.0% on THUMOS 2014, when the overlap threshold for evaluation is set to 0.5.

研究动机与目标

在包含多个动作实例和背景内容的未裁剪长视频中解决时序动作定位。
利用多阶段的 3D ConvNets 提出、分类并在时间上精确定位动作。
通过一种新的损失函数改进与 ground truth 的 IoU 相关的时序定位精度。
证明以分类网络初始化的 localization 网络比仅分类在边界上具有更好的表现。
展示在大规模基准数据集上相对于现有方法的效率和准确性提升。

提出的方法

通过滑动窗口进行多尺度分段生成，从未裁剪视频中创建候选段。
使用一个 proposal 网络（背景与动作）来过滤不太可能的片段。
训练一个针对 K 个动作类别的分类网络以初始化定位。
引入一个定位网络，其损失显式地鼓励与 ground truth IoU 越高的片段得到更高分数。
使用 proposal 和 localization 网络进行预测；对最终检测应用经调整阈值的 NMS。

实验结果

研究问题

RQ1多阶段的 Segment-CNN 框架是否能够在未裁剪视频上改善相对于以往方法的时序定位精度？
RQ2用分类网络初始化定位网络并使用基于重叠的损失是否能改善与 IoU 对齐的动作边界？
RQ3多尺度分段提案、背景过滤和 NMS 如何影响最终定位性能？
RQ4定位损失参数和 α 指数对训练稳定性与准确性有何影响？

主要发现

Segment-CNN 将 MEXaction2 的 mAP 从 1.7% 提升至 7.4%。
在 THUMOS 2014 上，在 IoU 阈值为 0.5 时，mAP 从 15.0% 提升到 19.0%。
proposal 网络筛选背景片段，提高了精度与效率。
带有重叠感知损失的定位网络更优先考虑与真实标注重叠较高的片段。
分类预训练为定位提供有益的初始化，结果比不使用分类更好。
该方法每个批次大约 1 秒，显存需求适中，并且不需要缓存高维特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。