[論文レビュー] MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks
MEAL V2 は最終出力監督と良好な学生初期化を用いたアンサンブル教師蒸留フレームワークを採用し、アーキテクチャ変更や追加データなしで vanilla ResNet-50 を ImageNet 上で Top-1 80% 以上へ押し上げます。これにより、コンパクトなモデルも大幅に改善します。
We introduce a simple yet effective distillation framework that is able to boost the vanilla ResNet-50 to 80%+ Top-1 accuracy on ImageNet without tricks. We construct such a framework through analyzing the problems in the existing classification system and simplify the base method ensemble knowledge distillation via discriminators by: (1) adopting the similarity loss and discriminator only on the final outputs and (2) using the average of softmax probabilities from all teacher ensembles as the stronger supervision. Intriguingly, three novel perspectives are presented for distillation: (1) weight decay can be weakened or even completely removed since the soft label also has a regularization effect; (2) using a good initialization for students is critical; and (3) one-hot/hard label is not necessary in the distillation process if the weights are well initialized. We show that such a straight-forward framework can achieve state-of-the-art results without involving any commonly-used techniques, such as architecture modification; outside training data beyond ImageNet; autoaug/randaug; cosine learning rate; mixup/cutmix training; label smoothing; etc. Our method obtains 80.67% top-1 accuracy on ImageNet using a single crop-size of 224x224 with vanilla ResNet-50, outperforming the previous state-of-the-arts by a significant margin under the same network structure. Our result can be regarded as a strong baseline using knowledge distillation, and to our best knowledge, this is also the first method that is able to boost vanilla ResNet-50 to surpass 80% on ImageNet without architecture modification or additional training data. On smaller ResNet-18, our distillation framework consistently improves from 69.76% to 73.19%, which shows tremendous practical values in real-world applications. Our code and models are available at: https://github.com/szq0214/MEAL-V2.
研究の動機と目的
- 標準分類トレーニングとワンホット監督の限界を診断する。
- トリックなしで既存アーキテクチャを向上させる、簡素で効果的な知識蒸留フレームワークを提案する。
- ソフトラベル、強力な教師アンサンブル、良好な学生初期化が一般化性能を改善することを示す。
- メソッドの適用性を ImageNet のみならず大規模モデル(ResNet-50)とコンパクトモデル(MobileNet、EfficientNet)にも示す(追加データなし)。
提案手法
- 複数の事前訓練済み教師のsoftmax出力を平均してソフトな監督を生成するために教師アンサンブルを使用する。
- 学生は蒸留教師分布との KL ダイバージェンスを最小化して学習する(ソフトターゲットを用いたクロスエントロピーに相当)。
- discriminator を用いて教師特徴と学生特徴を識別し、正則化信号を提供する。
- 最終層監督を用いた単段階の蒸留パイプラインを採用する(中間特徴マッチングは行わない)。
- ソフトラベルが正則化を提供するため重み減衰を弱化または除去し、良好な初期化が決定的に重要。
- アーキテクチャ変更や外部データには依存せず、標準の ImageNet トレーニングと基本的な拡張を使用する。
実験結果
リサーチクエスチョン
- RQ1強力な教師アンサンブルとソフト監督を用いた知識蒸留は、アーキテクチャ変更や追加データなしで vanilla ResNet-50 を ImageNet の Top-1 精度 80% を超えるよう向上させられるか。
- RQ2初期化品質、学習率戦略、正則化の選択が MEAL V2 の蒸留性能にどのように影響するか。
- RQ3この手法はコンパクトなネットワーク(MobileNet、EfficientNet)および転移学習タスクへ移植可能か。
- RQ4識別子(Discriminator)とターゲット層監督が蒸留を安定化または改善する役割は何か。
- RQ5MEAL V2 は従来の蒸留法と比較して模倣能力と最終精度の点でどうであるか。
主な発見
| Network | Resolution | #Params | Top-1 | Top-5 |
|---|---|---|---|---|
| ResNet-50 | 224 | 25.6M | 76.15 | 92.86 |
| ResNet-50 + Ours (MEAL V2) | 224 | 25.6M | 80.67 | 95.09 |
| ResNet-50 + Ours (MEAL V2) | 380 | 25.6M | 81.72 | 95.81 |
- MEAL V2 を用いた ResNet-50 は ImageNet の Top-1 で 80.67% を達成(入力 224×224)、従来の MEAL を 2.46% 上回る。
- 入力 380×380 の場合、ResNet-50 は Top-1 で 81.72% に達し、ベースラインを 2.62% 上回る。
- MEAL V2 はコンパクトモデル(例:MobileNet V3-Small 0.75/1.0 及び Large 1.0)をアーキテクチャ変更なしで約 2.2–2.25 ポイント改善。
- 本手法は控えめなデータ拡張と CutMix の追加でも効果を維持でき、ImageNet で飽和していないことを示す。
- より強力な教師アンサンブルは学生の性能をより良くし、良好な学生初期化は結果を極めて改善する。
- アブレーションでは重み減衰を除去しソフトラベルに頼る方が初期化が強い場合有利であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。