[论文解读] TEINet: Towards an Efficient Architecture for Video Recognition
TEINet 通过引入时序增强与交互(TEI)模块,提出了一种高效的视频识别架构,该模块将时序建模解耦为运动感知特征增强与通道间时序交互。通过将该模块集成到 2D ResNets 中,TEINet 在 Something-Something V1/V2 上实现了最先进(SOTA)的准确率,在 Kinetics-400 上取得了具有竞争力的结果,且参数量显著低于 3D CNNs。
Efficiency is an important issue in designing video architectures for action recognition. 3D CNNs have witnessed remarkable progress in action recognition from videos. However, compared with their 2D counterparts, 3D convolutions often introduce a large amount of parameters and cause high computational cost. To relieve this problem, we propose an efficient temporal module, termed as Temporal Enhancement-and-Interaction (TEI Module), which could be plugged into the existing 2D CNNs (denoted by TEINet). The TEI module presents a different paradigm to learn temporal features by decoupling the modeling of channel correlation and temporal interaction. First, it contains a Motion Enhanced Module (MEM) which is to enhance the motion-related features while suppress irrelevant information (e.g., background). Then, it introduces a Temporal Interaction Module (TIM) which supplements the temporal contextual information in a channel-wise manner. This two-stage modeling scheme is not only able to capture temporal structure flexibly and effectively, but also efficient for model inference. We conduct extensive experiments to verify the effectiveness of TEINet on several benchmarks (e.g., Something-Something V1&V2, Kinetics, UCF101 and HMDB51). Our proposed TEINet can achieve a good recognition accuracy on these datasets but still preserve a high efficiency.
研究动机与目标
- 解决 3D CNN 在视频动作识别中计算成本过高的问题,同时保持优异性能。
- 开发一种即插即用的时序模块,以增强与运动相关的特征并高效建模时序上下文。
- 使 2D CNN 能够有效学习时空表征,而无需将所有 2D 卷积替换为 3D 对应结构。
- 在对运动敏感的数据集(如 Something-Something V1/V2)上实现最先进性能,且计算开销极低。
- 通过仅使用 RGB 输入和 ImageNet 预训练,在 Kinetics、UCF101 和 HMDB51 等数据集上展示良好的泛化能力。
提出的方法
- TEI 模块由两个顺序组件构成:运动增强模块(MEM)和时序交互模块(TIM)。
- MEM 使用时序差分作为运动的代理,通过通道注意力机制抑制背景并增强与运动相关的特征。
- TIM 在小范围时序窗口上应用局部、通道注意力 1D 卷积,以建模短程时序依赖。
- TEI 模块被插入 2D ResNets 的残差块中,实现即插即用的集成,无需对网络架构进行大规模修改。
- 该方法仅使用 2D 卷积进行空间建模,并通过 TEI 模块引入轻量级的 3D 类似时序建模。
- 通过避免使用完整的 3D 卷积,并采用轻量级通道注意力操作,保持了高效的推理性能。
实验结果
研究问题
- RQ1一个轻量级、即插即用的模块是否能在不增加计算成本的前提下,提升 2D CNN 在视频动作识别中的性能?
- RQ2将运动增强与时序交互解耦,是否相比端到端的 3D 卷积能带来更好的性能与效率?
- RQ3带有 TEI 模块的 2D CNN 是否能在像 Something-Something V1/V2 这类对运动敏感的数据集上实现最先进性能?
- RQ4在 Kinetics-400 上,TEINet 与 2D-TSN/TSM 及 3D-I3D 模型相比,在准确率与效率方面表现如何?
- RQ5当从 Kinetics 预训练权重微调时,TEINet 在较小数据集(如 UCF101 和 HMDB51)上是否具有良好的泛化能力?
主要发现
- TEINet 仅使用 16 帧输入,在 Something-Something V2 上实现了 61.3% 的 top-1 准确率,比 TSM-16f×10 高出 1.9%。
- TEINet 8f 模型在 Something-Something V1 上超越了 TSM-16f×10 和 TSM-En,以 10 张裁剪图实现 75.8% 的 top-1 准确率。
- 在 Kinetics-400 上,TEINet 使用 16 帧输入的性能优于使用 32 帧输入的 NL I3D 模型,准确率高出 1.3%,且计算量更少。
- 在 UCF101 和 HMDB51 上,TEINet 表现具有竞争力,微调自 Kinetics 预训练权重后,优于 I3D-RGB 和 R(2+1)D-RGB 模型。
- 模型保持了低延迟与高吞吐量,在单张 P100 GPU 上具备可接受的推理速度,证实了其高效性。
- 消融实验证实 MEM 和 TIM 均对性能有显著贡献,验证了解耦设计的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。