[论文解读] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
引入 Temporal Segment Networks (TSN) 来在视频中通过稀疏采样和视频级监督建模长时域结构,使深度 ConvNets 在 HMDB51 和 UCF101 上通过实用的训练策略达到最先进的动作识别水平。
Deep convolutional networks have achieved great success for visual recognition in still images. However, for action recognition in videos, the advantage over traditional methods is not so evident. This paper aims to discover the principles to design effective ConvNet architectures for action recognition in videos and learn these models given limited training samples. Our first contribution is temporal segment network (TSN), a novel framework for video-based action recognition. which is based on the idea of long-range temporal structure modeling. It combines a sparse temporal sampling strategy and video-level supervision to enable efficient and effective learning using the whole action video. The other contribution is our study on a series of good practices in learning ConvNets on video data with the help of temporal segment network. Our approach obtains the state-the-of-art performance on the datasets of HMDB51 ( $ 69.4\% $) and UCF101 ($ 94.2\% $). We also visualize the learned ConvNet models, which qualitatively demonstrates the effectiveness of temporal segment network and the proposed good practices.
研究动机与目标
- 激发能够捕捉动作长时域结构的有效视频级表示。
- 通过提出鲁棒的训练实践解决深度 ConvNets 在视频中的有限训练样本问题。
- 开发一个稀疏、端到端的框架,利用整段视频信息并实现高效计算。
提出的方法
- 提出 Temporal Segment Networks (TSN),从每个视频稀疏采样 K 段短片并通过分段一致性汇聚片段预测以获得视频级预测。
- 在每个片段上使用非常深的网络(BN-Inception)的两流卷积网络结构(空间 RGB 流和时间流) 。
- 探索多种输入模态(RGB、RGB 差分、光流、扭曲光流)并评估它们的互补信息。
- 应用跨模态预训练以从 RGB 预训练模型初始化时序网络,使用带 dropout 的部分 Batch Normalization 来缓解过拟合,并实现数据增强(角落裁剪、尺度抖动)。
- 采用可微的分段聚合(发现平均池化效果良好)来将片段级预测融合成视频级分数,从而实现端到端的反向传播训练。
实验结果
研究问题
- RQ1如何利用深度 ConvNet 有效建模视频中的长时域结构以进行动作识别?
- RQ2稀疏时间采样加上分段级聚合是否能在显著降低计算量的同时实现与密集采样相当的性能?
- RQ3在有限视频数据下训练非常深的 ConvNet 的最佳实践是什么(预训练、正则化、增强),哪些输入模态能最大化性能?
主要发现
- 在其设置下,TSN 通过稀疏采样与分段一致性在 HMDB51 上达到 69.4%、在 UCF101 上达到 94.2% 的最先进结果。
- 多模态融合(RGB、RGB 差分、光流、扭曲光流)提升识别性能,使用全部四种模态的最佳结果高于任意子集。
- 跨模态预训练、带 dropout 的部分 BN、以及先进的数据增强在有限数据条件下显著提升两流 CNN 的性能。
- 作为分段一致性函数的平均池化在他们的实验中优于最大池化和加权平均。
- 基于 BN-Inception 的两流网络结合 TSN 的长时域建模优于其他架构,表明长时域建模对视频动作识别至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。