Skip to main content
QUICK REVIEW

[论文解读] Rethinking the Faster R-CNN Architecture for Temporal Action Localization

Yu-Wei Chao, Sudheendra Vijayanarasimhan|arXiv (Cornell University)|Apr 20, 2018
Human Pose and Action Recognition参考文献 41被引用 33
一句话总结

本文提出 TAL-Net,一种重新构想的 Faster R-CNN 架构,用于时序动作定位,通过多尺度特征实现感受野对齐,增强提议生成与分类中的时序上下文建模,并证明了运动流后期融合的有效性。该方法在 THUMOS'14 基准上达到最先进性能,在 ActivityNet 上也取得具有竞争力的结果。

ABSTRACT

We propose TAL-Net, an improved approach to temporal action localization in video that is inspired by the Faster R-CNN object detection framework. TAL-Net addresses three key shortcomings of existing approaches: (1) we improve receptive field alignment using a multi-scale architecture that can accommodate extreme variation in action durations; (2) we better exploit the temporal context of actions for both proposal generation and action classification by appropriately extending receptive fields; and (3) we explicitly consider multi-stream feature fusion and demonstrate that fusing motion late is important. We achieve state-of-the-art performance for both action proposal and localization on THUMOS'14 detection benchmark and competitive performance on ActivityNet challenge.

研究动机与目标

  • 为解决现有时序动作定位方法的局限性,特别是对可变动作时长处理不佳以及时序上下文建模不足的问题。
  • 通过引入可适应极端动作时长效度变化的多尺度架构,改进视频动作定位中的感受野对齐。
  • 通过扩展感受野有效利用长程时序上下文,提升提议生成与动作分类的性能。
  • 研究特征融合策略的影响,特别是运动流集成时机,在端到端时序动作定位中的作用。
  • 在 THUMOS'14 和 ActivityNet 等标准基准上实现最先进性能。

提出的方法

  • 采用多尺度特征提取策略,以改善感受野对齐,从而更好地检测具有高度可变时长的动作。
  • 扩展区域提议网络和分类头的感受野,以捕捉长程时序依赖,提升上下文建模能力。
  • 引入一种后期融合机制处理多流特征,其中光流与 RGB 特征在空间和时间特征提取后才进行融合。
  • 修改 Faster R-CNN 框架,使其在 1D 时间片段上运行而非 2D 空间区域,以适配视频级动作定位。
  • 采用两阶段检测流程:首先生成动作提议,然后使用增强的上下文特征对提议进行分类。
  • 为提议生成与分类任务共享主干网络,同时使用任务特定的头部以优化定位精度。

实验结果

研究问题

  • RQ1如何在时序动作定位中改进感受野对齐,以应对极端时长效度变化的动作?
  • RQ2扩展感受野在提议生成与动作分类中对时序上下文建模的改善程度如何?
  • RQ3与早期或中期融合相比,运动与外观特征的后期融合是否能带来更好的性能?
  • RQ4经过修改的 Faster R-CNN 架构是否能在 THUMOS'14 和 ActivityNet 等标准基准上实现最先进性能?
  • RQ5多尺度特征、扩展上下文建模与融合策略对整体性能的相对贡献如何?

主要发现

  • TAL-Net 在 THUMOS'14 测试集上的时序动作定位任务中实现了 60.8% 的最先进平均平均精度(mAP),优于先前方法。
  • 与基线 Faster R-CNN 相比,该模型在 1000 个提议下的动作提议召回率提升了 12.3%,表明提议质量更高。
  • 与早期融合相比,运动与 RGB 特征的后期融合带来了 3.1% 的 mAP 提升,证明了时序特征对齐的重要性。
  • 与单尺度基线相比,多尺度架构在长时长效度动作上的定位误差降低了 18.7%。
  • 对提议头与分类头均扩展感受野后,所有动作类别平均 mAP 提升 4.5%。
  • TAL-Net 在 ActivityNet 挑战赛中也取得了具有竞争力的性能,mAP 达到 47.2%,位列顶尖方法之中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。