[论文解读] TS-LSTM and Temporal-Inception: Exploiting Spatiotemporal Dynamics for Activity Recognition
本文提出 TS-LSTM 和 Temporal-Inception 两种新型架构,通过整合基于 ResNet-101 的双流 ConvNet 提取的空间与时间特征,增强视频动作识别中的时空特征学习能力。通过应用基于时间片段的 LSTM 和多尺度时间卷积网络,该方法在 UCF101 上实现 94.1% 的最先进准确率,在 HMDB51 上实现 69.0% 的准确率,且无需大量时间增强。
Recent two-stream deep Convolutional Neural Networks (ConvNets) have made significant progress in recognizing human actions in videos. Despite their success, methods extending the basic two-stream ConvNet have not systematically explored possible network architectures to further exploit spatiotemporal dynamics within video sequences. Further, such networks often use different baseline two-stream networks. Therefore, the differences and the distinguishing factors between various methods using Recurrent Neural Networks (RNN) or convolutional networks on temporally-constructed feature vectors (Temporal-ConvNet) are unclear. In this work, we first demonstrate a strong baseline two-stream ConvNet using ResNet-101. We use this baseline to thoroughly examine the use of both RNNs and Temporal-ConvNets for extracting spatiotemporal information. Building upon our experimental results, we then propose and investigate two different networks to further integrate spatiotemporal information: 1) temporal segment RNN and 2) Inception-style Temporal-ConvNet. We demonstrate that using both RNNs (using LSTMs) and Temporal-ConvNets on spatiotemporal feature matrices are able to exploit spatiotemporal dynamics to improve the overall performance. However, each of these methods require proper care to achieve state-of-the-art performance; for example, LSTMs require pre-segmented data or else they cannot fully exploit temporal information. Our analysis identifies specific limitations for each method that could form the basis of future work. Our experimental results on UCF101 and HMDB51 datasets achieve state-of-the-art performances, 94.1% and 69.0%, respectively, without requiring extensive temporal augmentation.
研究动机与目标
- 系统评估并改进标准双流 ConvNet 之外的时空动态整合方法。
- 识别 RNN 和时间卷积网络在直接应用于特征向量时,对时间信息利用的局限性。
- 使用基于 ResNet-101 的双流 ConvNet 建立强大且一致的基线,以实现方法间的公平比较。
- 探究时间分段与多尺度时间卷积是否能显著提升性能,相较于朴素池化或未分段的 RNN。
- 阐明基于 LSTM 与卷积时间建模在端到端动作识别中设计选择与性能权衡。
提出的方法
- 在 ImageNet 上预训练基于 ResNet-101 的双流 ConvNet,并在单帧动作识别任务上微调,从 RGB 和光流输入中提取空间与时间特征。
- 将空间与时间特征拼接,并在时间维度上构建为表示视频帧间时空动态的特征矩阵。
- TS-LSTM 在时间分段后对这些特征矩阵应用长短期记忆(LSTM)网络,以更好地建模长距离依赖关系。
- Temporal-Inception 在 Inception 风格架构中堆叠时间卷积核,从相同特征矩阵中捕捉多尺度时间模式。
- 两种方法处理相同的输入特征矩阵,从而实现对时间建模有效性的直接比较与消融研究。
- 使用 t-SNE 可视化分析特征空间聚类,证明应用 TS-LSTM 和 Temporal-Inception 后类别可分性得到改善。
实验结果
研究问题
- RQ1当应用于相同特征矩阵时,基于 RNN 与基于时间卷积网络的方法在利用时空动态方面有何差异?
- RQ2时间分段对 LSTM 在动作识别中的性能有何影响?是否能实现优于未分段 LSTM 的时间建模?
- RQ3多尺度 Temporal-Inception 架构是否能仅使用特征向量实现最先进性能,而无需依赖 3D 卷积或特征图?
- RQ4在时间建模中实现最优性能的关键架构与训练设计选择是什么?
- RQ5与基线双流 ConvNet 相比,所提出方法在改善特征空间聚类与类别可分性方面达到何种程度?
主要发现
- TS-LSTM 在 UCF101 上实现 94.1% 的最先进准确率,在 HMDB51 上实现 69.0% 的准确率,优于基线双流 ConvNet 及先前方法,且无需大量时间增强。
- 基线双流 ConvNet 因缺乏时间建模而错误分类复杂动作如 HighJump 和 PizzaTossing,而 TS-LSTM 和 Temporal-Inception 均能正确分类这些样本。
- t-SNE 可视化显示,TS-LSTM 和 Temporal-Inception 所产生的特征簇比基线更紧凑、更具可分性,表明表示学习能力得到提升。
- 对于 HighJump 类,TS-LSTM 达到 97.3% 的准确率,而基线仅为 62.2%;Temporal-Inception 达到 94.6%,表明在时间理解方面有显著提升。
- 对于 PizzaTossing,TS-LSTM 准确率达 90.9%,Temporal-Inception 达 97.0%,表明在具有相似运动模式的细粒度动作类别上具有更优泛化能力。
- 研究表明,除非结合时间分段,否则 LSTM 无法有效利用时间信息,凸显了原始 RNN 在此场景下的关键架构局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。