[论文解读] MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks
MEAL V2 采用一个基于教师 ensemble 的蒸馏框架,结合最终输出监督和良好的学生初始化,使得原生 ResNet-50 在 ImageNet 上在不改变架构或使用额外数据的前提下突破 80% 的 Top-1。此外,它对紧凑模型的提升也相当显著。
We introduce a simple yet effective distillation framework that is able to boost the vanilla ResNet-50 to 80%+ Top-1 accuracy on ImageNet without tricks. We construct such a framework through analyzing the problems in the existing classification system and simplify the base method ensemble knowledge distillation via discriminators by: (1) adopting the similarity loss and discriminator only on the final outputs and (2) using the average of softmax probabilities from all teacher ensembles as the stronger supervision. Intriguingly, three novel perspectives are presented for distillation: (1) weight decay can be weakened or even completely removed since the soft label also has a regularization effect; (2) using a good initialization for students is critical; and (3) one-hot/hard label is not necessary in the distillation process if the weights are well initialized. We show that such a straight-forward framework can achieve state-of-the-art results without involving any commonly-used techniques, such as architecture modification; outside training data beyond ImageNet; autoaug/randaug; cosine learning rate; mixup/cutmix training; label smoothing; etc. Our method obtains 80.67% top-1 accuracy on ImageNet using a single crop-size of 224x224 with vanilla ResNet-50, outperforming the previous state-of-the-arts by a significant margin under the same network structure. Our result can be regarded as a strong baseline using knowledge distillation, and to our best knowledge, this is also the first method that is able to boost vanilla ResNet-50 to surpass 80% on ImageNet without architecture modification or additional training data. On smaller ResNet-18, our distillation framework consistently improves from 69.76% to 73.19%, which shows tremendous practical values in real-world applications. Our code and models are available at: https://github.com/szq0214/MEAL-V2.
研究动机与目标
- 诊断标准分类训练与 one-hot 监督的局限性。
- 提出一个简单而有效的知识蒸馏框架,在不使用技巧的情况下提升现有架构。
- 展示软标签、强教师集成和良好学生初始化如何提升泛化能力。
- 证明该方法在大模型(ResNet-50)和紧凑模型(MobileNet、EfficientNet)上的适用性,且不需要超出 ImageNet 的数据。
提出的方法
- 使用教师集成通过对多个预训练教师的 softmax 输出取平均来生成软监督。
- 通过最小化学生输出与集成教师分布之间的 KL 散度来训练学生(等价于带软目标的交叉熵)。
- 使用一个判别器来区分教师特征与学生特征,为正则化信号提供信息。
- 采用单阶段蒸馏流程,使用最终层监督(不进行中间特征匹配)。
- 削弱或移除权重衰减,因为软标签提供正则化且良好的初始化至关重要。
- 不依赖架构改动或外部数据;使用标准 ImageNet 训练和基础增强。
实验结果
研究问题
- RQ1在没有改变架构或额外数据的情况下,利用强教师集成和软监督的知识蒸馏是否能让原生 ResNet-50 超过 ImageNet 的 80% Top-1?
- RQ2初始化质量、学习率策略与正则化选择如何影响 MEAL V2 的蒸馏性能?
- RQ3该方法是否可迁移到紧凑网络(MobileNet、EfficientNet)及迁移学习任务?
- RQ4判别器和目标层监督在稳定或提升蒸馏中的作用是什么?
- RQ5与现有蒸馏方法相比,MEAL V2 在拟合能力与最终准确率方面有何差异?
主要发现
| 网络 | 分辨率 | #参数 | Top-1 | Top-5 |
|---|---|---|---|---|
| ResNet-50 | 224 | 25.6M | 76.15 | 92.86 |
| ResNet-50 + Ours (MEAL V2) | 224 | 25.6M | 80.67 | 95.09 |
| ResNet-50 + Ours (MEAL V2) | 380 | 25.6M | 81.72 | 95.81 |
- 使用 MEAL V2 的 ResNet-50 在 ImageNet(输入 224×224)达到 80.67% 的 Top-1,超越前一版本 MEAL 2.46%。
- 在输入 380×380 下,ResNet-50 达到 81.72% 的 Top-1,较基线提升 2.62%。
- MEAL V2 在紧凑模型(如 MobileNet V3-Small 0.75/1.0 和 Large 1.0)上有显著提升,约提高 2.2–2.25 个百分点且不改变架构。
- 该方法在有限的数据增强甚至采用额外的 CutMix 时仍然有效,表明在 ImageNet 上尚未饱和。
- 更强的教师集成带来更好的学生性能,良好的学生初始化对结果改进至关重要。
- 消除权重衰减并依赖软标签在初始化较强时可能更有利的 Ablation 结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。