[论文解读] TSM: Temporal Shift Module for Efficient Video Understanding
TSM 引入一种轻量级的 Temporal Shift Module,使在 2D-CNNs 内实现时序建模成为可能,通过在时间上移位特征通道,在保持 2D-CNN 复杂度的同时获得接近 3D-CNN 的准确性,并扩展到在线低延迟视频任务。
The explosive growth in video streaming gives rise to challenges on performing video understanding at high accuracy and low computation cost. Conventional 2D CNNs are computationally cheap but cannot capture temporal relationships; 3D CNN based methods can achieve good performance but are computationally intensive, making it expensive to deploy. In this paper, we propose a generic and effective Temporal Shift Module (TSM) that enjoys both high efficiency and high performance. Specifically, it can achieve the performance of 3D CNN but maintain 2D CNN's complexity. TSM shifts part of the channels along the temporal dimension; thus facilitate information exchanged among neighboring frames. It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. We also extended TSM to online setting, which enables real-time low-latency online video recognition and video object detection. TSM is accurate and efficient: it ranks the first place on the Something-Something leaderboard upon publication; on Jetson Nano and Galaxy Note8, it achieves a low latency of 13ms and 35ms for online video recognition. The code is available at: https://github.com/mit-han-lab/temporal-shift-module.
研究动机与目标
- 推动实现将准确性与低计算成本相结合的高效视频理解,以用于实际部署。
- 开发一个时序建模机制,将其与 2D-CNN 集成时不产生额外的计算和参数。
- 同时解决离线高精度与在线低延迟的视频识别场景。
提出的方法
- 提出 Temporal Shift Module (TSM),通过在时间维度上移位部分通道来混合来自相邻帧的信息。
- 在残差分支中嵌入 TSM(残差移位),在实现时间融合的同时保留当前帧的空间学习。
- 对离线视频理解采用双向 TSM,在线实时处理采用单向 TSM。
- 应用部分移位(例如 1/4 通道)以最小化数据移动和延迟,同时保持时序建模能力。
- 通过将计算量和参数量保持等同于 2D-CNN 主干,并展示在边缘设备上的适用性,来证明硬件效率。
实验结果
研究问题
- RQ1如何在不增加计算量或参数的情况下,将时序信息融入 2D-CNN?
- RQ2仅移位子集通道并将移位嵌入残差块对准确性和效率的影响有多大?
- RQ3提出的 TSM 能否在边缘设备上同时实现离线高精度和在线低延迟的视频理解?
主要发现
- TSM 在以时序为重点的数据集上对 2D-CNN 基线提升显著,且不增加额外计算。
- 双向 TSM 在 Something-Something 数据集上达到最先进的结果,同时保持 2D-CNN 的效率。
- 单向 TSM 实现在线低延迟视频识别,所需内存极少,几乎没有额外延迟。
- 相较于 3D-CNN 和其他高效视频模型,TSM 在准确性- FLOPs 权衡方面提供了强大的硬件效率。
- TSM 可泛化到在线视频目标检测,给出相较于 2D 基线的 mAP 提升,延迟几乎可忽略。
- 边缘部署在如 Jetson Nano 和 Galaxy Note8 等设备上展示了切实的 延迟降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。