Skip to main content
QUICK REVIEW

[论文解读] TAda! Temporally-Adaptive Convolutions for Video Understanding

Ziyuan Huang, Shiwei Zhang|arXiv (Cornell University)|Oct 12, 2021
Human Pose and Action Recognition参考文献 59被引用 31
一句话总结

TAdaConv 为 2D卷积添加时序自适应校准权重,使得帧级时序建模高效且与预训练模型兼容,提升视频分类与定位性能。它可以接入现有骨干网络,如 ResNet/ConvNeXt 和 TAda2D TAdaConvNeXt,在多个数据集上实现有竞争力或最先进的结果。

ABSTRACT

Spatial convolutions are widely used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modelling complex temporal dynamics in videos. Specifically, TAdaConv empowers the spatial convolutions with temporal modelling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to previous temporal modelling operations, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, the kernel calibration brings an increased model capacity. We construct TAda2D and TAdaConvNeXt networks by replacing the 2D convolutions in ResNet and ConvNeXt with TAdaConv, which leads to at least on par or better performance compared to state-of-the-art approaches on multiple video action recognition and localization benchmarks. We also demonstrate that as a readily plug-in operation with negligible computation overhead, TAdaConv can effectively improve many existing video models with a convincing margin.

研究动机与目标

  • 动机:放宽卷积的时序不变性,以更好地捕捉视频中的时序动态。
  • 引入 TAdaConv,将逐帧核 W_t 因子化为 W_t = alpha_t * W_b,并从时序上下文生成 alpha_t。
  • 表明 TAdaConv 可以作为 2D 卷积的插件替代,并在较低开销下提升现有视频模型。
  • 展示 TAda2D 与 TAdaConvNeXt,在动作分类与定位基准测试中取得优异结果。

提出的方法

  • 将帧 t 的卷积权重因子化为 W_t = alpha_t * W_b,其中 W_b 为共享基底权重,alpha_t 为帧特定的校准向量。
  • 利用帧描述符通过全局平均池化获得帧描述,并结合带全局描述子 g(通过 FC)的局部时序上下文,使用一维卷积生成校准权重 alpha_t;包括线性或非线性权重生成,且可选地包含全局上下文。
  • 初始化 TAdaConv,使其在开始时将 alpha_t 设为1,以复现标准卷积并利用预训练权重。
  • 在骨干网络中替换 2D 卷积(基于 ResNet 的 TAda2D;基于 ConvNeXt 的 TAdaConvNeXt),并在 TAdaConv 之后为 2D 网络加入时序特征聚合模块。
  • 在通道维度 (C_in) 上进行校准以提升效果和效率;分析不同的校准维度。

实验结果

研究问题

  • RQ1时序自适应、逐帧对卷积核的校准是否能够在不带来过高计算成本的情况下改善视频任务的时序建模?
  • RQ2在参数、FLOPs 以及在动作识别与定位数据集上的性能方面,TAdaConv 与传统的时间卷积和其他动态滤波器相比如何?
  • RQ3在嵌入到现有骨干网时,哪种初始化、校准维度和时序上下文设定能够最大化 TAdaConv 的收益?
  • RQ4TAdaConv 是否与预训练权重保持兼容,并在不同架构(ResNet、ConvNeXt)和任务(分类、定位)上提供一致的增益?

主要发现

  • TAdaConv 插入现有模型时能够提升性能,计算开销相对于基线的 2D/3D 卷积可忽略不计。
  • TAdaConv 在多个视频动作识别基准测试中达到与最先进方法相同或更好的结果。
  • TAda2D 与 TAdaConvNeXt 变体在 Kinetics-400、Something-Something-V2、Epic-Kitchens-100,以及如 HACS、Epic-Kitchens-100 的动作定位数据集上表现出色。
  • 校准权重的生成受益于包含局部时序上下文和全局时序描述符,较大的时序核(例如 (3,3))带来更大的增益。
  • 在输入通道维度 (C_in) 上进行校准比在其他维度上校准获得更好的性能提升和效率。
  • 在多个阶段中使用 TAdaConv 产生的改进越来越显著,后期阶段对最终准确率贡献更大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。