[论文解读] TAM: Temporal Adaptive Module for Video Recognition
本文提出时间自适应模块(TAM),一种轻量级、即插即用的模块,通过将动态卷积核学习解耦为局部、与位置相关的显著性图和全局、视频自适应的聚合权重,生成视频特定的时间卷积核。TAM以极低的计算成本增强2D CNN,在Kinetics-400和Something-Something数据集上实现了最先进(SOTA)的动作识别性能,通过自适应、视频感知的时间建模有效捕捉复杂的时间动态。
Video data is with complex temporal dynamics due to various factors such as camera motion, speed variation, and different activities. To effectively capture this diverse motion pattern, this paper presents a new temporal adaptive module ({\bf TAM}) to generate video-specific temporal kernels based on its own feature map. TAM proposes a unique two-level adaptive modeling scheme by decoupling the dynamic kernel into a location sensitive importance map and a location invariant aggregation weight. The importance map is learned in a local temporal window to capture short-term information, while the aggregation weight is generated from a global view with a focus on long-term structure. TAM is a modular block and could be integrated into 2D CNNs to yield a powerful video architecture (TANet) with a very small extra computational cost. The extensive experiments on Kinetics-400 and Something-Something datasets demonstrate that our TAM outperforms other temporal modeling methods consistently, and achieves the state-of-the-art performance under the similar complexity. The code is available at \url{ https://github.com/liu-zhy/temporal-adaptive-module}.
研究动机与目标
- 解决由于相机运动、速度变化和多样化动作导致的视频中复杂且多变的时间动态建模挑战。
- 设计一种在多样化运动模式下具备高灵活性的同时计算成本低的时序模块,以实现高效视频处理。
- 实现针对单个视频内容自适应的视频特定时间卷积核学习,超越固定或仅依赖位置的自适应方法,提升时间建模能力。
- 开发一种模块化、即插即用的组件,可无缝集成到现有2D CNN架构中用于视频识别。
提出的方法
- TAM将时间卷积核分解为两个分支:局部分支使用时间卷积生成与位置相关的显著性图,用于短期特征增强。
- 全局分支使用全连接层生成与位置无关、视频自适应的聚合权重,用于长期时间依赖建模。
- 通过全局空间池化降低计算成本,并采用通道独立运算以保持效率。
- 通过逐元素相乘和卷积操作,将显著性图与聚合核结合,生成自适应的时间特征表示。
- 将TAM集成到2D CNN中,构建TANet——一种即插即用的视频识别架构,FLOP增加极小。
- 该方法端到端训练,可插入网络中的多个位置(例如卷积块之前或之后)。
实验结果
研究问题
- RQ1与固定或仅依赖位置的自适应卷积核相比,视频特定的时间卷积核是否能提升动作识别性能?
- RQ2两级自适应机制(局部显著性与全局聚合)在捕捉短期与长期时间动态方面是否高效?
- RQ3TAM在包含多样化运动模式的数据集(如Kinetics-400和Something-Something V1/V2)上能实现多大程度的性能提升?
- RQ4所提出的模块是否在实现SOTA结果的同时保持了低计算成本?
主要发现
- 在Kinetics-400数据集上,TAM优于标准时间池化、3D卷积、TSM、TEINet和非局部模块,以接近2D CNN的FLOPs实现新的SOTA精度。
- 在以运动为主导的Something-Something V1和V2数据集上,TANet实现了SOTA性能,展现出对复杂运动模式的强大泛化能力。
- 可视化学习到的卷积核显示,不同视频和动作的分布形状与中位数存在显著差异,证实了模块生成视频特定卷积核的能力。
- 局部分支中的显著性图在不同视频中表现出不同的注意力分布,表明对局部运动内容的敏感性;而全局聚合核则能自适应地捕捉长程依赖。
- TAM中的卷积核分布与Kinetics-400(以外观为主)和Something-Something(以运动为主)显著不同,体现了领域感知的自适应能力,而I3D中的固定卷积核则不具备此特性。
- TAM的设计实现了极低FLOP增加的有效时间建模,使其适用于真实世界视频识别系统的高效部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。