Skip to main content
QUICK REVIEW

[论文解读] TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

Jiyang Gao, Zhenheng Yang|arXiv (Cornell University)|Mar 17, 2017
Human Pose and Action Recognition被引用 63
一句话总结

TURN TAP 提出了一种快速的端到端 Temporal Unit Regression Network,用于通过回归开始/结束单元来生成时间动作提案,达到最新的 TAP 性能并实现高速度推理,並提升时间动作定位管线。

ABSTRACT

Temporal Action Proposal (TAP) generation is an important problem, as fast and accurate extraction of semantically important (e.g. human actions) segments from untrimmed videos is an important step for large-scale video analysis. We propose a novel Temporal Unit Regression Network (TURN) model. There are two salient aspects of TURN: (1) TURN jointly predicts action proposals and refines the temporal boundaries by temporal coordinate regression; (2) Fast computation is enabled by unit feature reuse: a long untrimmed video is decomposed into video units, which are reused as basic building blocks of temporal proposals. TURN outperforms the state-of-the-art methods under average recall (AR) by a large margin on THUMOS-14 and ActivityNet datasets, and runs at over 880 frames per second (FPS) on a TITAN X GPU. We further apply TURN as a proposal generation stage for existing temporal action localization pipelines, it outperforms state-of-the-art performance on THUMOS-14 and ActivityNet.

研究动机与目标

  • 在长时未裁剪的视频中激励高效且准确地生成时间动作提案(TAP)。
  • 引入一个边界感知的 TAP 框架,通过回归细化时间边界。
  • 通过重用单元级特征来构建基于片段的提案以降低计算量。
  • 展示 TURN 作为提案阶段提升时间动作定位的有效性。
  • 在不进行微调的情况下展示跨数据集(THUMOS-14、ActivityNet)的泛化能力。

提出的方法

  • 将视频分解为不重叠的单元窗口并提取单元级特征(如 C3D、光流 CNN)。
  • 通过在多个时间尺度上对相邻单元进行池化并在片段前后加入上下文来创建一个片段金字塔。
  • 将每个片段视为一个提案候选,并输出一个置信分数以及开始/结束单元索引的两个回归偏移量。
  • 使用多任务损失进行训练,将softmax分类与正样本的L1坐标回归结合。
  • 在评分/回归后使用非极大值抑制(NMS)去除冗余提案。
  • 使用新的 AR-F 指标(Recall 对提案频率)来评估 TAP 质量,并与 AR-N/AR-AN 指标进行比较。

实验结果

研究问题

  • RQ1在单元级进行时间边界回归是否能在不牺牲速度的前提下提高 TAP 的精度?
  • RQ2具有时序上下文的多尺度片段金字塔是否能提升 TAP 的召回率和定位性能?
  • RQ3TURN 在不同动作数据集及子集上在不进行微调的情况下如何泛化?
  • RQ4AR-F 是否比 AR-AN 或 AR-N 在跨数据集的 TAP 比较中更可靠的评估指标?
  • RQ5在现有时间动作定位管线中将 TURN 作为提案阶段时的影响是什么?

主要发现

  • TURN 在 THUMOS-14 和 ActivityNet 上在 AR-F 和 AR-AN 指标下达到最先进的 TAP 性能。
  • 在单个 TITAN X GPU 上,使用 C3D 特征时达到超过 880 FPS,使用光流 CNN 特征时达到 260 FPS。
  • 单元级时间坐标回归相对于帧级或无回归在细化边界方面表现更好,尤其是与时序上下文结合时。
  • TURN 在 ActivityNet 子集和 THUMOS-14 上泛化良好,且无需特定数据集微调。
  • 将 TURN 提案与 S-CNN 或 SVM 分类器配对时可提升时序定位的 mAP(例如在 THUMOS-14 上)。
  • TURN 提出一种新的 AR-F 指标,其与定位性能在不同视频长度上的相关性始终很高(与 mAP 的相关性约大于 0.9)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。