Skip to main content
QUICK REVIEW

[论文解读] TEA: Temporal Excitation and Aggregation for Action Recognition

Yan Li, Bin Ji|arXiv (Cornell University)|Apr 3, 2020
Human Pose and Action Recognition参考文献 51被引用 38
一句话总结

TEA 引入一个 Motion Excitation (ME) 模块和一个 Multiple Temporal Aggregation (MTA) 模块,以实现动作识别中的高效短期和长期时序建模,整合到 ResNet 骨干网络。

ABSTRACT

Temporal modeling is key for action recognition in videos. It normally considers both short-range motions and long-range aggregations. In this paper, we propose a Temporal Excitation and Aggregation (TEA) block, including a motion excitation (ME) module and a multiple temporal aggregation (MTA) module, specifically designed to capture both short- and long-range temporal evolution. In particular, for short-range motion modeling, the ME module calculates the feature-level temporal differences from spatiotemporal features. It then utilizes the differences to excite the motion-sensitive channels of the features. The long-range temporal aggregations in previous works are typically achieved by stacking a large number of local temporal convolutions. Each convolution processes a local temporal window at a time. In contrast, the MTA module proposes to deform the local convolution to a group of sub-convolutions, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-convolutions, and each frame could complete multiple temporal aggregations with neighborhoods. The final equivalent receptive field of temporal dimension is accordingly enlarged, which is capable of modeling the long-range temporal relationship over distant frames. The two components of the TEA block are complementary in temporal modeling. Finally, our approach achieves impressive results at low FLOPs on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB51, and UCF101, which confirms its effectiveness and efficiency.

研究动机与目标

  • 在视频的短范围和长范围内推动稳健的时序建模,以提升动作识别。
  • 将运动感知的特征激发与时空学习相结合。
  • 在不增加额外参数的情况下高效扩大时序感受野。
  • 在常用基准上展示效率和有效性。
  • 提供一个可插拔到 ResNet 架构中的模块化 TEA 块。

提出的方法

  • 提出 Motion Excitation (ME) 以计算特征层面的时序差异,并通过残差连接激励对运动敏感的通道。
  • 提出 Multiple Temporal Aggregation (MTA),通过将局部时序卷积变形为跨通道组的子卷积级联,以在不增加额外参数的情况下增大时序感受野。
  • 将 ME 和 MTA 嵌入到 ResNet 块中,形成 TEA 块,并为视频模型堆叠 TEA 块。
  • 使用 2D CNN 骨干网络(ResNet-50),进行稀疏时序采样(T 帧)和简单的时序池化以进行视频级预测。
  • 与 Something-Something V1、Kinetics-400、HMDB51 和 UCF101 上的 2D/2+1D 基线和此前的最先进方法进行比较。

实验结果

研究问题

  • RQ1在不使用显式光流的情况下,如何在时空特征学习中有效编码短程运动?
  • RQ2一个轻量级模块是否能级联局部时序运算以高效捕捉长程时序依赖?
  • RQ3ME 和 MTA 是否互补,在保持计算效率的同时提升动作识别性能?
  • RQ4在标准基准上,TEA 相较于现有的 2D、2+1D 和 3D CNN 方法的表现如何?

主要发现

  • TEA 在 Something-Something V1 上,8 帧与 1 次裁剪(8x1x1 配置)实现 48.9% 的 Top-1。
  • TEA 相较于 (2+1)D ResNet 和 SENet 基线有所提升,其中 ME 提供显著增益,残差连接保留静态场景信息。
  • 整合 MTA 取得进一步增益,在 Something-Something V1 的变体上,TEA 8x1x1 达到 48.9% Top-1,8x3x10 达到 51.7% Top-1,16x3x10 达到 52.3% Top-1。
  • 在 Something-Something V1, TEA 使用 8 帧和 1 次裁剪达到 48.9% Top-1 和 78.1% Top-5;使用 8x3x10 时达到 75.0% Top-1 和 91.8% Top-5;使用 16x3x10 时达到 76.1% Top-1 和 92.5% Top-5。
  • 与 Something-Something V1 上的若干最先进方法相比,TEA 在 8x3x10(75.0% Top-1)和 16x3x10(76.1% Top-1)下,在相近 FLOPs 下超越了许多 2D/2+1D 基线,并在与基于 3D CNN 的模型的对比中展现出竞争力。
  • 在 Kinetics-400 上,TEA 16x3x10 实现 76.1% Top-1,低于 SlowFast,但在高效的 2D/2+1D 方法中具有竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。