[论文解读] High-Performance Large-Scale Image Recognition Without Normalization
本文介绍自适应梯度裁剪(AGC)和无归一化网络(NFNet)架构,在不使用归一化层的情况下实现了ImageNet的最前沿结果,达到或超过 EfficientNets 的水平,同时训练速度更快,并受益于强数据增强和用于最大模型的 SAM 完成。
Batch normalization is a key component of most image classification models, but it has many undesirable properties stemming from its dependence on the batch size and interactions between examples. Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets. Our smaller models match the test accuracy of an EfficientNet-B7 on ImageNet while being up to 8.7x faster to train, and our largest models attain a new state-of-the-art top-1 accuracy of 86.5%. In addition, Normalizer-Free models attain significantly better performance than their batch-normalized counterparts when finetuning on ImageNet after large-scale pre-training on a dataset of 300 million labeled images, with our best models obtaining an accuracy of 89.2%. Our code is available at https://github.com/deepmind/ deepmind-research/tree/master/nfnets
研究动机与目标
- 理解大规模图像分类中批量归一化的局限性。
- 开发一种归一化自由的训练方案,保持有竞争力的准确性。
- 实现稳定的大批量训练,最小化超参数调整。
- 设计针对在现代加速器上训练速度优化的 NFNet 架构。
- 展示在大规模预训练后迁移学习和微调的优势。
提出的方法
- 提出 Adaptive Gradient Clipping (AGC),按单元向量范数相对于相应权重范数裁剪以稳定训练。
- 采用并改进 Normalizer-Free ResNet (NFNet) 块,具备方差保持初始化和 Scaled Weight Standardization。
- 融入可学习的跳跃初始化标量与调整后的 squeeze-excite 缩放以控制激活统计。
- 设计一系列 NFNet 架构(F0–F6),采用深度、宽度与分辨率缩放策略,聚焦训练延迟。
- 应用强正则化和数据增强(MixUp、RandAugment、CutMix)以对抗非归一化网络的过拟合。
- 在 ImageNet 上使用大批量(1024–4096)进行评估,并与带批归一化的对照及 EfficientNets 进行比较。
实验结果
研究问题
- RQ1归一化自由的架构配合自适应梯度裁剪,是否能够达到与 BN 基网络竞争的 ImageNet 精度并且训练更快?
- RQ2数据增强和正则化如何与 NFNet 块相互作用以实现最先进的性能?
- RQ3哪些架构选择(深度分布、宽度模式、额外卷积)在 NFNets 上实现最佳的训练速度与准确性折中?
- RQ4在大规模预训练后,NFNets 相对于 BN 基网络在迁移学习中是否仍具备优势?
- RQ5自适应梯度裁剪如何影响极大批量训练的稳定性与性能?
主要发现
| Model | FLOPs | Params | Top-1 | Top-5 | TPUv3 Train | GPU Train |
|---|---|---|---|---|---|---|
| NFNet-F0 | 12.38B | 71.5M | 83.6 | 96.8 | 73.3ms | 56.7ms |
| EffNet-B0 | 0.39B | 5.3M | 77.1 | 93.3 | 51.1ms | 44.8ms |
| SENet-50 | 4.09B | 28.0M | 79.4 | 94.6 | 64.3ms | 59.4ms |
| NFNet-F1 | 35.54B | 132.6M | 84.7 | 97.1 | 158.5ms | 133.9ms |
| EffNet-B3 | 1.80B | 12.0M | 81.6 | 95.7 | 129.5ms | 116.6ms |
| LambdaNet-152 | - | 51.5M | 83.0 | 96.3 | 138.3ms | 135.2ms |
| SENet-152 | 19.04B | 66.6M | 83.1 | 96.4 | 149.9ms | 151.2ms |
| BoTNet-110 | 10.90B | 54.7M | 82.8 | 96.3 | 181.3ms | - |
| NFNet-F2 | 62.59B | 193.8M | 85.1 | 97.3 | 295.8ms | 226.3ms |
| SENet-350 | 52.90B | 115.2M | 83.8 | 96.6 | 593.6ms | - |
| EffNet-B5 | 9.90B | 30.0M | 83.7 | 96.7 | 450.5ms | 458.9ms |
| NFNet-F3 | 114.76B | 254.9M | 85.7 | 97.5 | 532.2ms | 524.5ms |
| LambdaNet-420 | - | 124.8M | 84.8 | 97.0 | 593.9ms | - |
| EffNet-B6 | 19.00B | 43.0M | 84.0 | 96.8 | 775.7ms | 868.2ms |
| BoTNet-128-T7 | 45.80B | 75.1M | 84.7 | 97.0 | 804.5ms | - |
| NFNet-F4 | 215.24B | 316.1M | 85.9 | 97.6 | 1033.3ms | 1190.6ms |
| EffNet-B7 | 37.00B | 66.0M | 84.7 | 97.0 | 1397.0ms | 1753.3ms |
| NFNet-F5 | 289.76B | 377.2M | 86.0 | 97.6 | 1398.5ms | 2177.1ms |
| NFNet-F5+SAM | 289.76B | 377.2M | 86.3 | 97.9 | 1958.0ms | - |
| NFNet-F6+SAM | 377.28B | 438.4M | 86.5 | 97.9 | 2774.1ms | - |
- NFNet-F1 的准确度与 EfficientNet-B7 相当,同时训练速度要快 8.7 倍。
- 最大的 NFNet 变体在带 SAM 的情况下达到 86.5% 的 state-of-the-art top-1 准确率。
- NFNets 在对一个 3.0 亿图像数据集进行预训练后再微调时,优于 BN 基网络,达到 89.2% 的 top-1。
- AGC 使 NFNets 在批量大小高达 4096 时仍能稳定训练,且在强数据增强下表现优于未使用 AGC 的 NFResNets。
- NFNet-F5 在 ImageNet 上达到 86.0% 的 top-1,与更大 EfficientNet 变体在 FLOPs 与精度的权衡中竞争,同时优先考虑训练时延。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。