Skip to main content
QUICK REVIEW

[论文解读] Convolutional Two-Stream Network Fusion for Video Action Recognition

Christoph Feichtenhofer, Axel Pinz|arXiv (Cornell University)|Apr 22, 2016
Human Pose and Action Recognition参考文献 31被引用 371
一句话总结

本论文提出一种时空融合架构,将空间卷积网络流和时间卷积网络流通过多种融合策略进行融合,在UCF101和HMDB51上取得了最先进的结果。结果表明,采用带有3D时序池化的后期空间融合在参数量少于简单softmax融合的情况下也能获得强大性能。

ABSTRACT

Recent applications of Convolutional Neural Networks (ConvNets) for human action recognition in videos have proposed different solutions for incorporating the appearance and motion information. We study a number of ways of fusing ConvNet towers both spatially and temporally in order to best take advantage of this spatio-temporal information. We make the following findings: (i) that rather than fusing at the softmax layer, a spatial and temporal network can be fused at a convolution layer without loss of performance, but with a substantial saving in parameters; (ii) that it is better to fuse such networks spatially at the last convolutional layer than earlier, and that additionally fusing at the class prediction layer can boost accuracy; finally (iii) that pooling of abstract convolutional features over spatiotemporal neighbourhoods further boosts performance. Based on these studies we propose a new ConvNet architecture for spatiotemporal fusion of video snippets, and evaluate its performance on standard benchmarks where this architecture achieves state-of-the-art results.

研究动机与目标

  • 通过有效融合视频中的 appearance(空间)与 motion(时间)线索来激发和提升动作识别性能。
  • 研究在网络中何时、何地以及以何种频率融合两个 ConvNet 流,以最大化时空特征学习。
  • 开发一种实用的时空融合架构,既保持空间对应性又利用时间上下文。
  • 比较融合策略和深度对准确率与模型大小的影响。

提出的方法

  • 评估多种融合函数(求和、最大、拼接、卷积、双线性)以在选定层次合并两个流。
  • 在匹配空间维度的约束下,尝试在不同卷积层、全连接层之后,或多层融合的位置进行融合。
  • 通过2D/3D 池化和3D卷积实现时间融合,以捕捉短期和长期时间结构。
  • 提出一种时空融合架构,在最后一个卷积层进行3D卷积融合和3D池化,同时保留时间流。
  • 训练双流网络(空间:RGB,时间:光流)在ImageNet上预训练,然后在UCF101和HMDB51上进行微调;在测试时以密集时间采样进行评估。

实验结果

研究问题

  • RQ1在空间和时间流之间采用哪种融合策略可以获得最佳的动作识别准确率?
  • RQ2在网络的哪一处进行融合以在提升性能的同时最小化参数?
  • RQ3应如何融合时间信息以有效捕捉短期与长期动态?
  • RQ4使用更深的网络(如VGG-16)是否比更深的时间模型更能提升动作识别?
  • RQ5在标准基准上,时空融合如何与单流或后期融合基线相比?

主要发现

  • 在最后一个卷积层(ReLU5)进行的Conv融合比其他空间融合层表现更好,且与晚期在softmax层的融合相比具有竞争力甚至更优,同时参数显著更少。
  • 拼接和最大融合在空间融合中通常不如求和或卷积融合,且卷积融合理通常提供最佳准确性。
  • 在ReLU5处融合两个流并使用3D融合随后3D池化,与2D池化相比表现更好,并保持对显式时空对应性的结构优势。
  • 在更深的模型(VGG-16)对两个流均应用时,空间模型的准确性显著提高,而时间增益较小,表明空间深度带来更强的收益。
  • 使用3D卷积和3D池化进行时空融合的准确性高于简单2D融合或简单对预测进行平均;3D融合滤波器进一步提升在基准上的性能。
  • 所提出的3D时空融合架构在UCF101和HMDB51上相比以往的两流方法达到最先进的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。