Skip to main content
QUICK REVIEW

[论文解读] Temporal Context Network for Activity Localization in Videos

Xiyang Dai, Bharat Singh|arXiv (Cornell University)|Aug 8, 2017
Human Pose and Action Recognition参考文献 33被引用 66
一句话总结

提出 Temporal Context Network (TCN),通过利用来自更大尺度的上下文,对时序提议片段进行排序;通过明确的多尺度上下文采样与时序卷积,在 ActivityNet 和 THUMOS14 上实现了最先进的结果。

ABSTRACT

We present a Temporal Context Network (TCN) for precise temporal localization of human activities. Similar to the Faster-RCNN architecture, proposals are placed at equal intervals in a video which span multiple temporal scales. We propose a novel representation for ranking these proposals. Since pooling features only inside a segment is not sufficient to predict activity boundaries, we construct a representation which explicitly captures context around a proposal for ranking it. For each temporal segment inside a proposal, features are uniformly sampled at a pair of scales and are input to a temporal convolutional neural network for classification. After ranking proposals, non-maximum suppression is applied and classification is performed to obtain final detections. TCN outperforms state-of-the-art methods on the ActivityNet dataset and the THUMOS14 dataset.

研究动机与目标

  • 激发对未裁剪视频中人类活动的精确时序定位。
  • 开发一个提议排序机制,将超出提议边界的时序上下文纳入其中。
  • 利用跨尺度的上下文采样的双流特征表示。
  • 将提议排序与分类阶段整合,以产生最终检测结果。
  • 在 ActivityNet 和 THUMOS14 上证明相对于以往方法的改进。

提出的方法

  • 将提议放在等间隔且跨越多个时尺度,以覆盖潜在的活动区域。
  • 通过在提议内部以及下一个更大尺度处采样特征来构建一个上下文感知的特征表示,然后将它们连接。
  • 对成对的尺度特征应用时序卷积,以预测提议的前景/背景。
  • 对提议特征进行双线性池化以实现鲁棒的动作分类,随后进行符号平方根和 L2 归一化。
  • 使用交叉熵损失对提议排序器和最终分类器进行训练,采用平衡的小批量。
  • 使用非极大值抑制来最终确定检测结果。

实验结果

研究问题

  • RQ1将 larger scales 的时序上下文纳入是否能改善时序活动提议的排序?
  • RQ2上下文窗口的尺度如何影响本地化性能和在不同 IoU 阈值下的 mAP?
  • RQ3基于提议的检测系统若采用基于上下文的排序,是否能在未裁剪视频上超越基于 LSTM 的或全局特征方法?
  • RQ4在 ActivityNet 与 THUMOS14 上,提议数量对检测性能有何影响?

主要发现

  • 时序上下文显著提高了提议排序,尤其在较高的 IoU 阈值下。
  • 基于上下文的提议在多个阈值上获得更高的 mAP(ActivityNet 验证集):mAP@.5=36.17, mAP@.75=21.12, mAP@.95=3.89,相较于无上下文时分别为 15.91、3.11、0.13。
  • 在上下文尺度 around 2 时获得最佳性能,尺度过大或过小会降低效果。
  • ActivityNet 评测服务器上的最佳结果:mAP@.5=37.49, mAP@.75=23.47, mAP@.95=4.47。
  • 在 THUMOS14 上,该方法与 CDC 配对时获得更高的平均召回率并提升检测性能,超越若干基线方法。
  • 提出的带上下文的排序器在召回率和检测指标上优于以往的提议方法(如 DAPs、SCNN)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。