[论文解读] ImageNet pre-trained models with batch normalization
该论文提供了一组新的 ImageNet 预训练模型用于 Caffe,包括 AlexNet 和 VGG19 的批量归一化变体以及 ResNet 模型,显示相对于先前的公开模型的性能改进。它还讨论了训练细节和在大 CNN 中使用批量归一化的实用建议。
Convolutional neural networks (CNN) pre-trained on ImageNet are the backbone of most state-of-the-art approaches. In this paper, we present a new set of pre-trained models with popular state-of-the-art architectures for the Caffe framework. The first release includes Residual Networks (ResNets) with generation script as well as the batch-normalization-variants of AlexNet and VGG19. All models outperform previous models with the same architecture. The models and training code are available at http://www.inf-cv.uni-jena.de/Research/CNN+Models.html and https://github.com/cvjena/cnn-models
研究动机与目标
- 推动在 Caffe 中为常见架构发布预训练的 ImageNet 模型。
- 展示在如 AlexNet 和 VGG19 这样的大型 CNN 中加入批量归一化的好处。
- 提供训练代码和实际指南,以便复现并对这些模型进行微调。
- 展示使用 BN 变体和 ResNet 相对于先前公开模型的经验改进。
提出的方法
- 通过在每个卷积层和全连接层之后插入批量归一化来修改 AlexNet 和 VGG19。
- 移除局部响应归一化和 dropout,并用输入 BN 替代均值减法。
- 在 ILSVRC 2012(120 万张图像,1000 类)上训练网络 64 轮,批量大小 256,并为每个模型设置不同的初始学习率(AlexNet 0.05,VGG19 0.01,ResNet 0.1)。
- 使用线性学习率衰减,并依赖 BN 以实现更大的学习率和稳定的统计量;如果显存有限,在微调时启用全局统计。
实验结果
研究问题
- RQ1AlexNet、VGG19 的批量归一化变体以及 ResNet 是否比现有的公开模型在 ImageNet 预训练性能上有所提升?
- RQ2批量归一化如何影响大规模 CNN 在 ImageNet 上的训练动态和最终错误率?
- RQ3是否可以在不进行手动均值减法且具备鲁棒统计量的情况下对启用 BN 的模型进行微调?
- RQ4训练 BN 增强架构所需的实际训练设置(批量大小、学习率、数据增强)有哪些?
主要发现
| Model | Top-1 error (Ours) | Top-1 error (Original) | Top-5 error (Ours) | Top-5 error (Original) |
|---|---|---|---|---|
| AlexNet | 39.9% | 42.6% | 18.1% | 19.6% |
| VGG19 | 26.9% | 28.7% | 8.8% | 9.9% |
| ResNet-10 | 36.1% | – | 14.8% | – |
| ResNet-50 | 24.6% | 24.7% | 7.6% | 7.8% |
- BN 变体的 AlexNet 和 VGG19 实现了比先前公开模型更低的 Top-1 和 Top-5 误差率。
- 带有批量归一化的 ResNet 模型在性能上具有竞争力,在某些情况下甚至优于先前公开的残差网络。
- 所有提供的模型在 ILSVRC 2012 验证集上都优于同一架构的此前训练的模型。
- BN 使得可以使用更高的学习率,并且可以提升大型 CNN 的泛化能力。
- 由于输入 BN 层,训练启用 BN 的网络可以无需均值减法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。