Skip to main content
QUICK REVIEW

[论文解读] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

Zheng Shou, Jonathan Chan|arXiv (Cornell University)|Mar 4, 2017
Human Pose and Action Recognition参考文献 60被引用 62
一句话总结

在3D ConvNets之上引入一种Convolutional-De-Convolutional (CDC) 网络,用于预测逐帧动作分数,从而在未剪辑视频中以高效率(≈500 FPS)实现精确的时序定位。

ABSTRACT

Temporal action localization is an important yet challenging problem. Given a long, untrimmed video consisting of multiple action instances and complex background contents, we need not only to recognize their action categories, but also to localize the start time and end time of each instance. Many state-of-the-art systems use segment-level classifiers to select and rank proposal segments of pre-determined boundaries. However, a desirable model should move beyond segment-level and make dense predictions at a fine granularity in time to determine precise temporal boundaries. To this end, we design a novel Convolutional-De-Convolutional (CDC) network that places CDC filters on top of 3D ConvNets, which have been shown to be effective for abstracting action semantics but reduce the temporal length of the input data. The proposed CDC filter performs the required temporal upsampling and spatial downsampling operations simultaneously to predict actions at the frame-level granularity. It is unique in jointly modeling action semantics in space-time and fine-grained temporal dynamics. We train the CDC network in an end-to-end manner efficiently. Our model not only achieves superior performance in detecting actions in every frame, but also significantly boosts the precision of localizing temporal boundaries. Finally, the CDC network demonstrates a very high efficiency with the ability to process 500 frames per second on a single GPU server. We will update the camera-ready version and publish the source codes online soon.

研究动机与目标

  • 阐明在预定义分段提议之外,微粒化、逐帧的时序定位需求。
  • 提出一种联合学习的 CDC 过滤器,在空间上进行下采样、在时间上进行上采样,以保持逐帧分辨率。
  • 设计一个建立在 3D ConvNets 之上的端到端 CDC 网络,以产生密集的逐帧动作分数。
  • 在 THUMOS’14 和 ActivityNet 2016 上展示更高的逐帧标注准确性和更优的时序定位精度。

提出的方法

  • 用 CDC 过滤器替换/增强 C3D,使其在空间上进行联合下采样(4x4)和时间上进行上采样(2x)。
  • 将 FC6/FC7 适配为 CDC6/CDC7,以实现多帧输出和逐帧预测。
  • 附加一个逐帧 softmax 分类器(CDC8),并使用逐帧交叉熵损失进行训练。
  • 在视频窗口(32 帧)上使用 SGD 进行端到端训练,使用预训练的 C3D 初始化以保持稳定性。
  • 在测试阶段,在提议窗口上生成逐帧分数,并利用帧置信度的高斯核密度估计(Gaussian KDE)来细化段边界。

实验结果

研究问题

  • RQ1一个联合的 Convolutional-De-Convolutional (CDC) 过滤器是否能够同时在空间上进行下采样和在时间上进行上采样,从而产生逐帧的动作预测?
  • RQ2相较于分段级方法,逐帧预测是否显著提升时域边界定位?
  • RQ3端到端 CDC 基于定位与 THUMOS’14 和 ActivityNet 2016 上的最先进方法相比如何?
  • RQ4CDC 方法在计算上是否足够高效,能够实现实时或近实时处理?

主要发现

表 1:THUMOS’14 上的逐帧标注 mAP
单帧 CNN34.7%
双流 CNN36.2%
LSTM39.3%
多 LSTM41.3%
C3D + LinearInterp37.0%
卷积与去卷积41.7%
CDC (固定 3D ConvNets)37.4%
CDC44.4%
  • CDC 在 THUMOS’14 上达到逐帧标注 mAP 的最新水平,优于单帧、双流、LSTM 以及早期基于 C3D 的方法。
  • 结合逐帧预测的 CDC 在 IoU 阈值(0.3–0.7)下的时序定位精度优于 S-CNN、C3D+LinearInterp、Conv&De-conv 基线,以及 CDC 变体。
  • 利用 CDC 逐帧预测细化段边界可提高 ActivityNet 2016 的时序定位 mAP,尤其是在较高 IoU(0.75)时。
  • CDC 网络在单个 GPU(Titan X)上大约处理 500 帧/秒,存储约 ~1 GB,使未剪辑视频的密集预测高效实现。
  • 在 3D ConvNets 顶上对 CDC 层进行端到端训练和微调,相比固定 3D ConvNet 特征,能更好地区分时域动态。
  • 细粒度的逐帧预测使边界在从粗略段提议开始时也能实现精确细化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。