[论文解读] CT-Net: Channel Tensorization Network for Video Classification
CT-Net 引入一个通道张量化模块,用于对通道维进行张量化,并采用张量可分离卷积加上张量激励机制,在效率与特征交互之间取得平衡,在 Kinetics-400 和 Something-Something v1/v2 上达到较强的准确率,同时具有较低的计算量。
3D convolution is powerful for video classification but often computationally expensive, recent studies mainly focus on decomposing it on spatial-temporal and/or channel dimensions. Unfortunately, most approaches fail to achieve a preferable balance between convolutional efficiency and feature-interaction sufficiency. For this reason, we propose a concise and novel Channel Tensorization Network (CT-Net), by treating the channel dimension of input feature as a multiplication of K sub-dimensions. On one hand, it naturally factorizes convolution in a multiple dimension way, leading to a light computation burden. On the other hand, it can effectively enhance feature interaction from different channels, and progressively enlarge the 3D receptive field of such interaction to boost classification accuracy. Furthermore, we equip our CT-Module with a Tensor Excitation (TE) mechanism. It can learn to exploit spatial, temporal and channel attention in a high-dimensional manner, to improve the cooperative power of all the feature dimensions in our CT-Module. Finally, we flexibly adapt ResNet as our CT-Net. Extensive experiments are conducted on several challenging video benchmarks, e.g., Kinetics-400, Something-Something V1 and V2. Our CT-Net outperforms a number of recent SOTA approaches, in terms of accuracy and/or efficiency. The codes and models will be available on https://github.com/Andy1621/CT-Net.
研究动机与目标
- Motivate reducing 3D convolution complexity while preserving rich spatiotemporal-channel interactions for video classification.
- 提出一个通道张量化模块(CT-Module),将通道因子分解为 K 个子维以实现高效的多维卷积。
- 引入张量激励(TE)机制,以张量感知的方式学习空间、时间与通道的注意力。
- 通过在 ResNet 模块中整合 CT-Modules 构建 CT-Net,在大规模视频基准数据集上实现有利的准确率-效率权衡。
提出的方法
- 将输入通道表示为 K 个子维的乘积:C = C1 × C2 × ... × CK.
- 在每个通道子维上应用张量可分离卷积(TSConv),以逐步实现完全特征交互并增大 3D 感受野。
- 将 3D TSConv 因子化为空间(S-TSConv)和时间(T-TSConv)张量可分离卷积,并并行融合它们的输出(Xk = Xk^S + Xk^T)。
- 为每个 CT-Module 配备张量激励(TE),其中包含空间 TE(S-TE)、时间 TE(T-TE),以及基于 PW-TSConv 的通道 TE,以增强跨维度的协同特征交互。
- 通过用 CT-Blocks 替换选定的 ResBlocks,将 CT-Modules 集成到基于 ResNet 的 CT-Net,构建一个灵活且高效的视频分类网络。
- 注:TE 机制在张量感知的方式下显式地跨空间、时间和通道维度进行注意。
实验结果
研究问题
- RQ1通过多子维分解的通道张量化是否能够在降低计算量的同时维持或提升视频表示质量?
- RQ2沿着通道子维进行张量可分离卷积是否会产生渐进增大的 3D 感受野,从而提升动作识别性能?
- RQ3张量激励机制是否能在 CT-Module 上提供来自空间、时间和通道注意力的可观增益?
- RQ4CT-Net 与 CT-Blocks 相较于最先进的 2D/3D 视频模型,在 Kinetics-400 与 Something-Something V1/V2 等数据集上的准确率与 GFLOPs 有何差异?
- RQ5改变子维数量(K)与子维大小(Ci)对性能与效率的影响如何?
主要发现
- CT-Module 在较低 GFLOPs 的情况下仍提供竞争性的准确性,与若干 3D 卷积基线相比具备优势。
- 增大子维数量(K)可降低计算量,并在采用 2D 通道张量化时实现有利的准确率-效率权衡。
- 并行的空间与时间张量可分离卷积性能优于串行或耦合配置。
- 张量激励(TE)在 CT-Module 的基础上进一步提升,通过在空间、时间与通道维度上的有效注意而获得额外收益。
- 搭载 CT-Blocks 的 CT-Net 变体在 Something-Something V1/V2 上达到了或超过了最先进的结果,在 Kinetics-400 上也具备竞争力,同时具备显著的效率优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。