Skip to main content
QUICK REVIEW

[论文解读] Real-time Action Recognition with Enhanced Motion Vector CNNs

Bowen Zhang, Limin Wang|arXiv (Cornell University)|Apr 26, 2016
Human Pose and Action Recognition参考文献 26被引用 52
一句话总结

该论文提出一种基于运动矢量(MVs)而非光流的实时动作识别方法,以消除计算瓶颈。通过利用预训练的光流卷积神经网络(CNN)对基于MVs的CNN进行初始化、监督和联合蒸馏的知识迁移,该方法在UCF101和THUMOS14数据集上实现了SOTA精度,推理速度达390.7 fps,较两流网络快27倍。

ABSTRACT

The deep two-stream architecture exhibited excellent performance on video based action recognition. The most computationally expensive step in this approach comes from the calculation of optical flow which prevents it to be real-time. This paper accelerates this architecture by replacing optical flow with motion vector which can be obtained directly from compressed videos without extra calculation. However, motion vector lacks fine structures, and contains noisy and inaccurate motion patterns, leading to the evident degradation of recognition performance. Our key insight for relieving this problem is that optical flow and motion vector are inherent correlated. Transferring the knowledge learned with optical flow CNN to motion vector CNN can significantly boost the performance of the latter. Specifically, we introduce three strategies for this, initialization transfer, supervision transfer and their combination. Experimental results show that our method achieves comparable recognition performance to the state-of-the-art, while our method can process 390.7 frames per second, which is 27 times faster than the original two-stream method.

研究动机与目标

  • 解决两流CNN因昂贵的光流计算而带来的实时处理限制。
  • 克服因使用粗糙且噪声较大的运动矢量替代光流而导致的动作识别性能下降问题。
  • 利用光流与运动矢量之间的相关性,将光流CNN中的细粒度运动知识迁移至运动矢量CNN中。
  • 开发一种快速、端到端的动作识别系统,实现实时视频处理且不损失精度。

提出的方法

  • 直接从压缩视频文件中提取运动矢量,替代光流,从而消除对独立光流计算的需求。
  • 训练一个基于运动矢量的卷积神经网络(MV-CNN)作为学生模型,采用知识蒸馏技术从预训练的光流CNN(教师模型)中迁移特征。
  • 应用三种知识迁移策略:(1) 初始化迁移,即使用训练好的光流CNN的第一层卷积核初始化MV-CNN;(2) 监督迁移,即使用光流CNN生成的软标签来监督MV-CNN的训练;(3) 联合迁移,即同时使用上述两种方法。
  • 采用两流架构,分别独立处理RGB流和运动矢量流,再进行特征融合以完成最终分类。
  • 通过仅依赖运动矢量解码进行推理优化,避免任何光流估计操作。
  • 可视化第一卷积层的滤波器,定性验证知识蒸馏有效提升了MV-CNN的特征质量并降低了噪声。

实验结果

研究问题

  • RQ1在深度动作识别中,能否使用压缩视频中提取的运动矢量替代光流,而不会造成显著精度损失?
  • RQ2从预训练的光流CNN中迁移知识,能在多大程度上提升运动矢量CNN的性能?
  • RQ3哪些知识蒸馏技术在将光流中的精细运动模式迁移至粗粒度运动矢量方面最为有效?
  • RQ4基于运动矢量的CNN能否实现实时推理速度,同时与基于光流的两流网络精度相当?

主要发现

  • 该方法在UCF101上达到390.7 fps,在THUMOS14上达到403.2 fps,较原始两流方法快27倍,较iDT+CNN快200倍。
  • 通过知识蒸馏,基于运动矢量的CNN(EMV-CNN)在THUMOS14上达到61.5%的平均精度均值,优于MV+FV(44.7%),并匹配iDT+FV(63.1%),同时速度优势显著。
  • EMV-CNN在UCF101(3折)上达到88.2%的准确率,较C3D(1 net)高出4.1%,较C3D(3 net)高出1.2%,尽管仅使用运动矢量。
  • 滤波器可视化显示,EMV-CNN学习到的特征比MV-CNN更清晰、更具结构,证实了从光流CNN成功迁移知识。
  • 运动矢量提取速度比GPU上的Brox光流估计快44倍,且比实时快30倍,因此特别适合实时系统。
  • 初始化与监督迁移的结合取得最佳性能,表明多模态知识蒸馏在运动表征增强方面有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。