[论文解读] The ImageNet Shuffle: Reorganized Pre-training for Video Event Detection
本文提出将完整的 ImageNet 层次结构(包含 21,814 个类别和 1,400 万张图像)通过自底向上和自顶向下的合并策略重新组织为平衡的通用类别,以提升视频事件检测性能。在这些重新组织的层次结构上进行预训练,可使深度网络在 TRECVID 2013 和 2015 基准测试中达到最先进水平,优于标准 ImageNet 预训练方法,并实现与运动和音频特征的更优融合。
This paper strives for video event detection using a representation learned from deep convolutional neural networks. Different from the leading approaches, who all learn from the 1,000 classes defined in the ImageNet Large Scale Visual Recognition Challenge, we investigate how to leverage the complete ImageNet hierarchy for pre-training deep networks. To deal with the problems of over-specific classes and classes with few images, we introduce a bottom-up and top-down approach for reorganization of the ImageNet hierarchy based on all its 21,814 classes and more than 14 million images. Experiments on the TRECVID Multimedia Event Detection 2013 and 2015 datasets show that video representations derived from the layers of a deep neural network pre-trained with our reorganized hierarchy i) improves over standard pre-training, ii) is complementary among different reorganizations, iii) maintains the benefits of fusion with other modalities, and iv) leads to state-of-the-art event detection results. The reorganized hierarchies and their derived Caffe models are publicly available at http://tinyurl.com/imagenetshuffle.
研究动机与目标
- 通过利用完整的 ImageNet 层次结构而非标准的 1,000 类子集,提升视频事件检测性能。
- 解决 ImageNet 的 21,814 个类别中存在的类别不平衡和过度具体化问题,这些问题会妨碍有效的预训练。
- 提出并评估两种互补的重新组织策略——自底向上和自顶向下——基于 ImageNet 层次结构的图结构。
- 证明从重新组织的预训练中获得的表征优于标准预训练,并能增强多模态特征融合。
提出的方法
- 提出一种自底向上的方法,从 ImageNet 层次结构的叶节点开始,将低层级、过度具体的类别合并为更广泛、更通用的类别。
- 开发一种自顶向下的方法,从层次结构的顶层选择高层级、通用的类别,并扩展形成平衡的类别。
- 使用重新组织的类别集合,在完整的 ImageNet 数据集上对深度卷积神经网络(如 AlexNet)进行预训练,而非使用标准的 1,000 类子集。
- 从预训练网络的最后全连接层或 Softmax 层提取帧级特征。
- 通过平均池化操作对帧特征进行聚合,形成固定大小的视频表征。
- 通过 Fisher 向量编码实现与运动(MBH)和音频(MFCC)特征的融合,平均池化作为基线用于比较。
实验结果
研究问题
- RQ1是否可以通过利用完整的 ImageNet 层次结构(21,814 个类别,1,400 万张图像)而非标准的 1,000 类子集,来提升视频事件检测性能?
- RQ2ImageNet 层次结构的自底向上和自顶向下重新组织策略如何影响预训练质量及下游检测性能?
- RQ3从重新组织的预训练中获得的表征在与运动和音频特征融合时是否仍保持互补性?
- RQ4重新组织的预训练是否能在 TRECVID 2013 和 2015 等标准基准上实现最先进性能?
主要发现
- 在 TRECVID 2013 测试集上,该方法在每事件 100 个正样本的任务中达到 0.475 的平均平均精度(mAP),在每事件 10 个正样本的任务中达到 0.324,仅使用深度特征。
- 在融合运动和音频特征后,mAP 提升至每事件 100 个正样本任务中的 0.526,以及每事件 10 个正样本任务中的 0.348,优于两项任务的所有先前最先进方法。
- 在 TRECVID 2015 基准测试中,该方法在所有任务中均位列顶尖水平,无论是仅使用深度特征还是多模态融合,均取得顶级结果。
- 重新组织的预训练方法被证实与其他模态具有互补性:运动和音频特征单独使用时表现优于深度特征,但与深度特征融合后达到最高性能。
- 预训练的 Caffe 模型和特征提取说明已公开发布于 http://tinyurl.com/imagenetshuffle,可直接用于最先进的视频表征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。