Skip to main content
QUICK REVIEW

[论文解读] Temporal Action Detection with Structured Segment Networks

Yue Zhao, Yuanjun Xiong|arXiv (Cornell University)|Apr 20, 2017
Human Pose and Action Recognition参考文献 48被引用 144
一句话总结

SSN 引入结构化时间金字塔池化来建模动作的起始、过程和结束阶段,具备单独的活动分类器和完备性分类器,以及 TAG 提案,在 THUMOS’14 和 ActivityNet 上达到最新的最佳结果。

ABSTRACT

Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (SSN), a novel framework which models the temporal structure of each action instance via a structured temporal pyramid. On top of the pyramid, we further introduce a decomposed discriminative model comprising two classifiers, respectively for classifying actions and determining completeness. This allows the framework to effectively distinguish positive proposals from background or incomplete ones, thus leading to both accurate recognition and localization. These components are integrated into a unified network that can be efficiently trained in an end-to-end fashion. Additionally, a simple yet effective temporal action proposal scheme, dubbed temporal actionness grouping (TAG) is devised to generate high quality action proposals. On two challenging benchmarks, THUMOS14 and ActivityNet, our method remarkably outperforms previous state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling actions with various temporal structures.

研究动机与目标

  • 使用三阶段(起始、过程、结束)表示来建模动作实例的时序结构。
  • 开发结构化的时间金字塔池化(STPP),以形成丰富的全局提案。
  • 联合学习动作分类和完备性评估,以滤除不完整或背景提案。
  • 通过稀疏片段采样实现端到端训练,以提升对长视频的效率。
  • 提出一种鲁棒的时序动作提案方法( Temporal Actionness Grouping,TAG),以提升召回率和精确度。

提出的方法

  • 将增强后的提案分割为起始、过程和结束阶段,并应用结构化时间金字塔池化以获得阶段性表示。
  • 使用两分类器系统:一个用于 K+1 类(包括背景)的活动分类器,以及一组 K 个完备性分类器来评估提案的完备性。
  • 使用多任务损失进行训练,将分类和完备性结合起来,并进行用于时间边界的定位回归。
  • 在训练时采用稀疏片段采样(L=9 个片段)来高效近似 STPP。
  • 在推理阶段,重新排序计算以重用共享特征并加速对大量提案的分类/回归。
  • 通过对一维动作性信号进行泛洪并合并盆地来生成高质量的 TAG 提案。

实验结果

研究问题

  • RQ1显式的时序结构建模(起始/过程/结束)能否将完整的动作实例与不完整或背景的提案区分开?
  • RQ2相较于平坦池化,结构化时间金字塔池化是否能提升对长时间、结构多变的动作的表征?
  • RQ3单独的活动分类器和完备性分类器在不同 IoU 阈值下如何提升检测准确性和精确性?
  • RQ4端到端训练结合稀疏采样对性能与效率有何影响?
  • RQ5TAG 是否在时序动作检测中提供更高的召回率和更高质量的提案,相较于传统的滑动窗口或其他提案?

主要发现

  • SSN 在 THUMOS’14 和 ActivityNet v1.3/1.2 上取得了最先进的结果,在多个指标上超越了此前的方法。
  • 带有增强提案(起始、过程、结束)的结构化时间金字塔池化在检测效果上优于没有阶段结构的设置。
  • 将活动分类器和完备性分类器分解后,比单一统一的负类方法表现更好。
  • 定位回归和多任务训练持续提升检测准确性。
  • 端到端训练结合稀疏采样在降低存储和计算的同时仍具竞争力的性能。
  • TAG 提案提供更高的召回率和更好的 IoU 质量,提升整体检测性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。