QUICK REVIEW

[论文解读] ImageNet pre-trained models with batch normalization

Marcel Simon, Erik Rodner|arXiv (Cornell University)|Dec 5, 2016

Advanced Neural Network Applications参考文献 29被引用 136

一句话总结

该论文提供了一组新的 ImageNet 预训练模型用于 Caffe，包括 AlexNet 和 VGG19 的批量归一化变体以及 ResNet 模型，显示相对于先前的公开模型的性能改进。它还讨论了训练细节和在大 CNN 中使用批量归一化的实用建议。

ABSTRACT

Convolutional neural networks (CNN) pre-trained on ImageNet are the backbone of most state-of-the-art approaches. In this paper, we present a new set of pre-trained models with popular state-of-the-art architectures for the Caffe framework. The first release includes Residual Networks (ResNets) with generation script as well as the batch-normalization-variants of AlexNet and VGG19. All models outperform previous models with the same architecture. The models and training code are available at http://www.inf-cv.uni-jena.de/Research/CNN+Models.html and https://github.com/cvjena/cnn-models

研究动机与目标

推动在 Caffe 中为常见架构发布预训练的 ImageNet 模型。
展示在如 AlexNet 和 VGG19 这样的大型 CNN 中加入批量归一化的好处。
提供训练代码和实际指南，以便复现并对这些模型进行微调。
展示使用 BN 变体和 ResNet 相对于先前公开模型的经验改进。

提出的方法

通过在每个卷积层和全连接层之后插入批量归一化来修改 AlexNet 和 VGG19。
移除局部响应归一化和 dropout，并用输入 BN 替代均值减法。
在 ILSVRC 2012（120 万张图像，1000 类）上训练网络 64 轮，批量大小 256，并为每个模型设置不同的初始学习率（AlexNet 0.05，VGG19 0.01，ResNet 0.1）。
使用线性学习率衰减，并依赖 BN 以实现更大的学习率和稳定的统计量；如果显存有限，在微调时启用全局统计。

实验结果

研究问题

RQ1AlexNet、VGG19 的批量归一化变体以及 ResNet 是否比现有的公开模型在 ImageNet 预训练性能上有所提升？
RQ2批量归一化如何影响大规模 CNN 在 ImageNet 上的训练动态和最终错误率？
RQ3是否可以在不进行手动均值减法且具备鲁棒统计量的情况下对启用 BN 的模型进行微调？
RQ4训练 BN 增强架构所需的实际训练设置（批量大小、学习率、数据增强）有哪些？

主要发现

Model	Top-1 error (Ours)	Top-1 error (Original)	Top-5 error (Ours)	Top-5 error (Original)
AlexNet	39.9%	42.6%	18.1%	19.6%
VGG19	26.9%	28.7%	8.8%	9.9%
ResNet-10	36.1%	–	14.8%	–
ResNet-50	24.6%	24.7%	7.6%	7.8%

BN 变体的 AlexNet 和 VGG19 实现了比先前公开模型更低的 Top-1 和 Top-5 误差率。
带有批量归一化的 ResNet 模型在性能上具有竞争力，在某些情况下甚至优于先前公开的残差网络。
所有提供的模型在 ILSVRC 2012 验证集上都优于同一架构的此前训练的模型。
BN 使得可以使用更高的学习率，并且可以提升大型 CNN 的泛化能力。
由于输入 BN 层，训练启用 BN 的网络可以无需均值减法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。