QUICK REVIEW

[论文解读] Deep CNN Ensemble with Data Augmentation for Object Detection

Jian Guo, Stephen Jay Gould|arXiv (Cornell University)|Jun 24, 2015

Advanced Neural Network Applications参考文献 2被引用 46

一句话总结

本文提出一种结合数据增强的深度卷积神经网络集成方法用于目标检测，通过在扩展后的PASCAL VOC训练集上微调GoogleNet和VGG-16模型，结合多个在不同数据上训练的模型的预测结果，实现了在PASCAL VOC 2012测试集上的70.3% mAP，为提交时的最先进性能，优于以往方法，得益于模型集成与数据扩展。

ABSTRACT

We report on the methods used in our recent DeepEnsembleCoco submission to the PASCAL VOC 2012 challenge, which achieves state-of-the-art performance on the object detection task. Our method is a variant of the R-CNN model proposed Girshick:CVPR14 with two key improvements to training and evaluation. First, our method constructs an ensemble of deep CNN models with different architectures that are complementary to each other. Second, we augment the PASCAL VOC training set with images from the Microsoft COCO dataset to significantly enlarge the amount training data. Importantly, we select a subset of the Microsoft COCO images to be consistent with the PASCAL VOC task. Results on the PASCAL VOC evaluation server show that our proposed method outperform all previous methods on the PASCAL VOC 2012 detection task at time of submission.

研究动机与目标

通过深度学习技术提升PASCAL VOC 2012数据集上的目标检测性能。
探究使用不同CNN架构的模型集成对检测准确率的影响。
评估使用Microsoft COCO数据集进行数据增强在PASCAL VOC检测任务中的有效性。
确定通过在不同数据子集上训练的多个模型的预测结果进行融合，是否能提升泛化能力与性能。

提出的方法

该方法采用由两个深度CNN模型——GoogleNet和VGG-16组成的集成模型，这些模型在ImageNet上预训练，并在PASCAL VOC 2012上进行微调。
通过将PASCAL VOC 2012与Microsoft COCO 2014数据集相结合，对训练数据进行增强，从而构建更大且更丰富的训练集。
微调过程采用随机梯度下降，基础初始学习率为10^-3，动量为0.9，权重衰减为5×10^-4，共进行100,000次迭代。
从最后一个平均池化层提取特征向量（GoogleNet为1024维，VGG-16为4096维）用于分类。
通过平均六个网络（两个模型在三个数据划分上）的输出结果获得最终预测。
对选择性搜索建议框应用边界框回归，最终预测通过在所有六个网络上平均SVM得分与回归坐标获得。

实验结果

研究问题

RQ1将多个具有不同架构的深度CNN模型进行组合，是否能提升在PASCAL VOC 2012上的目标检测性能？
RQ2在PASCAL VOC上微调时，使用Microsoft COCO数据集进行数据增强在多大程度上提升了检测准确率？
RQ3在不同数据子集上训练的多个网络进行模型平均，如何影响泛化能力与mAP？
RQ4在某一阈值后，继续增加模型数量对性能的边际增益是多少？

主要发现

在PASCAL VOC 2007+2012组合数据集上微调的GoogleNet与VGG-16模型集成，在验证集上达到65.0%的mAP，相比之前最佳的四网络集成模型提升了2.3%。
最终模型使用六个在VOC+COCO增强数据集上训练的网络，在PASCAL VOC 2012验证集上达到68.3%的mAP，相比单模型基线提升了3.3%。
在应用边界框回归并平均六个网络的预测结果后，PASCAL VOC 2012测试集上的mAP提升至70.3%，成为提交时（2015年5月3日）排名第一的提交结果。
使用八个网络和边界框回归，测试集mAP达到70.1%，相比后续的最先进方法高出0.6%（70.7%的mAP）。
随着模型数量的增加，集成带来的性能增益逐渐减小，表明在某一集成规模后收益递减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。