[论文解读] Efficient Two-Stream Motion and Appearance 3D CNNs for Video Classification
本文提出一种端到端的双流3D卷积神经网络架构,无需依赖预计算的光流,即可从RGB视频片段中联合学习外观和运动表征,在UCF101数据集上达到最先进性能,同时处理速度超过每秒200帧——显著快于需要外部光流计算的双流方法。
The video and action classification have extremely evolved by deep neural networks specially with two stream CNN using RGB and optical flow as inputs and they present outstanding performance in terms of video analysis. One of the shortcoming of these methods is handling motion information extraction which is done out side of the CNNs and relatively time consuming also on GPUs. So proposing end-to-end methods which are exploring to learn motion representation, like 3D-CNN can achieve faster and accurate performance. We present some novel deep CNNs using 3D architecture to model actions and motion representation in an efficient way to be accurate and also as fast as real-time. Our new networks learn distinctive models to combine deep motion features into appearance model via learning optical flow features inside the network.
研究动机与目标
- 解决双流卷积神经网络在视频动作识别中作为预处理步骤提取光流所导致的高计算成本问题。
- 通过在网络内部集成运动表征学习,克服C3D等3D-CNN在捕捉时序动态方面的局限性。
- 开发一种统一的、可端到端训练的3D-CNN框架,联合优化动作分类与运动特征学习。
- 在无需外部光流计算的前提下,实现与双流网络相当的高准确率,从而实现实时推理。
提出的方法
- 设计一种双流3D-CNN架构,其中一路处理RGB帧,另一路通过3D卷积直接从视频片段中学习运动表征。
- 在Sports-1M数据集上预训练3D-ConvNet用于外观流,并在UCF101上微调以进行动作分类。
- 从零开始训练3D-DeconvNet以从视频片段中重建光流,使用Brox的方法提供真实光流监督。
- 引入共享权重的3D-CNN架构,以端到端方式联合优化视频分类与光流估计。
- 通过拼接外观流与运动流的特征,使用线性SVM进行最终分类。
- 通过特征级融合,将运动流最后一层卷积的中级特征与外观流的C3D特征相结合。
实验结果
研究问题
- RQ13D-CNN架构是否能够在不依赖预计算光流的情况下,端到端地学习有效的运动表征?
- RQ2动作识别与光流估计的联合训练如何影响分类准确率与推理速度?
- RQ3双流3D-CNN架构是否能够在不使用预计算光流的情况下,实现与使用预计算光流的双流CNN相当的性能,同时更快更高效?
- RQ4外观流与运动流之间的特征融合对视频分类准确率有何影响?
- RQ5与现有双流及3D-CNN基线方法相比,所提出方法在推理速度上表现如何?
主要发现
- 所提出的端到端双流3D-CNN在UCF101上实现了90.2%的平均准确率,优于C3D(82.3%),并匹配或超过其他双流方法。
- 该方法处理视频的速度达到每秒246帧,显著快于双流CNN基线(14.3 fps),实现了实时推理。
- 共享权重的端到端网络(Ours-Twostream 3Dnet)实现了90.2%的准确率与246 fps的速度,表明联合学习可同时提升速度与性能。
- 消融实验表明,将中级运动特征与C3D外观特征结合,可使准确率从85.2%提升至87.0%。
- 在不依赖外部光流计算的模型中,其推理速度高于依赖预计算光流的方法(如iDT+FV,2.1 fps)。
- 结果表明,在网络内部学习运动表征比依赖外部光流计算更为高效且有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。