Skip to main content
QUICK REVIEW

[论文解读] Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman|arXiv (Cornell University)|Sep 4, 2014
Advanced Vision and Imaging参考文献 30被引用 75,407
一句话总结

该论文研究了使用3x3滤波器构建的极深 ConvNets(11–19 weight layers)在大规模图像识别中的影响,取得了 state-of-the-art 结果并释放顶级模型。

ABSTRACT

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16-19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision.

研究动机与目标

  • 评估网络深度如何影响大规模图像识别中的准确性。
  • 证明使用小型 3x3 卷积滤波器可以构建高度准确的深度网络。
  • 评估训练/测试策略(尺度变动、多尺度训练、多裁剪评估)以及对其他数据集的泛化。
  • 发布表现最佳的模型以促进进一步研究。

提出的方法

  • 使用固定输入尺寸为 224x224,采用 3x3 卷积滤波器和 1 像素填充以保持分辨率。
  • 堆叠多个卷积层(A–E),深度从 11 到 19 weight layers 增加,使用在每个最大池化层后增长的小通道数。
  • 在更深的网络中应用 ReLU 激活并避免使用 LRN,以减少内存和计算量,同时保持性能。
  • 使用 SGD(批量 256、动量 0.9)、L2 权重衰减,以及前两层全连接层的 dropout 进行训练;采用基于尺度的数据增强和多尺度训练。
  • 在测试阶段将全连接层转换为卷积层,以实现对整张图像的密集评估并对类别分数进行求和池化;采用单尺度、多尺度和多裁剪策略进行评估;对多个模型进行集成以提高准确性。

实验结果

研究问题

  • RQ1增加深度(11 到 19 weight layers)如何影响 ILSVRC-2012/2014 的 top-1 和 top-5 的准确性?
  • RQ2当深度增加时,3x3 的滤波器堆叠是否比更大滤波器具有优势?
  • RQ3在训练和测试中使用多尺度和多裁剪评估对最终准确性有何影响?
  • RQ4学到的极深表示是否能泛化到超出 ImageNet 的其他数据集?
  • RQ5单模型与集成模型在该架构上的性能如何?

主要发现

  • 相比于较浅的网络,深度更深的网络(最高 19 weight layers)提升了性能。
  • 3x3 滤波器堆叠配合 ReLU 的表现优于等效或更大滤波器的架构;添加 1x1 卷积提供非线性但在不丢失空间上下文的情况下不优于更深的 3x3 堆叠。
  • 训练和测试阶段的尺度抖动(多尺度输入)相比固定尺度训练可带来显著的准确性提升。
  • 密集评估和多裁剪评估是互补的;模型集成进一步降低误差,最佳单模型的 top-5 测试误差为 7.0%,结合集成与多裁剪后为 6.8%。
  • 该方法在 ILSVRC-2014 分类中获得第二名(7.3% top-5 测试误差),并且优于若干先前的架构,以更简单、更新深的设计接近 GoogLeNet 的性能。
  • 论文公开了其两种性能最佳的模型以促进进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。