[论文解读] Exploiting Image-trained CNN Architectures for Unconstrained Video Classification
本文提出了一种简单但高效的视频分类流水线,利用预训练的图像CNN模型,证明了在特征提取、池化、归一化以及与运动特征的后期融合方面进行仔细选择可显著提升性能。在TRECVID MED’14和UCF-101数据集上,该方法优于非CNN基线模型,并实现了最先进(SOTA)的性能表现,尤其在融合CNN特征与基于运动的IDT+FV特征时表现更佳。
We conduct an in-depth exploration of different strategies for doing event detection in videos using convolutional neural networks (CNNs) trained for image classification. We study different ways of performing spatial and temporal pooling, feature normalization, choice of CNN layers as well as choice of classifiers. Making judicious choices along these dimensions led to a very significant increase in performance over more naive approaches that have been used till now. We evaluate our approach on the challenging TRECVID MED'14 dataset with two popular CNN architectures pretrained on ImageNet. On this MED'14 dataset, our methods, based entirely on image-trained CNN features, can outperform several state-of-the-art non-CNN models. Our proposed late fusion of CNN- and motion-based features can further increase the mean average precision (mAP) on MED'14 from 34.95% to 38.74%. The fusion approach achieves the state-of-the-art classification performance on the challenging UCF-101 dataset.
研究动机与目标
- 探究未经微调的图像预训练CNN是否能在无约束视频分类中实现优异性能。
- 识别将图像CNN适配至视频任务时的最优设计选择,如CNN层选择、池化方式、归一化方法及分类器选择。
- 评估将CNN特征与基于运动的描述符(IDT+FV)进行后期融合对视频分类准确率的影响。
- 建立一个强大的2D CNN基线模型,其性能优于非CNN方法及部分基于CNN的最先进方法。
提出的方法
- 将预训练的ImageNet CNN模型(AlexNet和VGG)作为固定特征提取器,应用于采样的视频帧。
- 通过空间最大池化和时间平均池化,聚合帧间及空间区域的特征。
- 采用L2或L2+L1归一化对特征进行归一化处理,以提升鲁棒性与泛化能力。
- 通过平均CNN特征与基于运动的IDT+FV特征的预测结果,实现后期融合,以结合外观与运动信息。
- 在池化并归一化的特征上训练核SVM分类器,用于事件检测。
- 在视频中均匀采样帧,并校准帧选择策略,以确保一致的时间覆盖。
实验结果
研究问题
- RQ1未经微调的现成图像预训练CNN是否能在无约束视频分类中实现有竞争力的性能?
- RQ2哪一层CNN及何种特征提取策略在视频分类中表现最佳?
- RQ3在使用图像预训练CNN处理视频时,时空池化策略如何影响最终分类准确率?
- RQ4与仅使用CNN的方法相比,与基于运动的特征(IDT+FV)进行后期融合是否能显著提升性能?
- RQ5所提出方法与最先进非CNN及基于CNN的视频分类模型相比如何?
主要发现
- 在TRECVID MED’14数据集上,所提出的仅CNN方法优于多个最先进非CNN模型,实现了34.95%的平均平均精度(mAP)。
- 将CNN特征(来自隐藏层6)与IDT+FV运动特征进行后期融合后,MED’14数据集上的mAP提升至38.74%,达到最先进性能。
- 在UCF-101数据集上,CNN-hidden6与IDT+FV特征的后期融合实现了89.62%的平均准确率,优于两流CNN和LSTM方法。
- 该CNN方法实现了实时推理,特征提取仅耗时0.4倍视频播放时间,且在23,953个视频上完成测试仅用时15秒。
- 使用CNN特征进行分类器训练耗时90秒,快于Fisher向量方法(150秒),且推理速度也显著更快。
- 该方法建立了一个强大的2D CNN基线模型,其性能优于非CNN方法及部分专用时空CNN模型,即使未进行微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。