[論文レビュー] EfficientNetV2: Smaller Models and Faster Training
トレーニング認識NASと適応正則化を用いたプログレッシブ学習により発見された、小型で収束が速いConvNetファミリー EfficientNetV2 を紹介し、従来のモデルよりパラメータ数を抑えつつ訓練を高速化し、精度を高めている。
This paper introduces EfficientNetV2, a new family of convolutional networks that have faster training speed and better parameter efficiency than previous models. To develop this family of models, we use a combination of training-aware neural architecture search and scaling, to jointly optimize training speed and parameter efficiency. The models were searched from the search space enriched with new ops such as Fused-MBConv. Our experiments show that EfficientNetV2 models train much faster than state-of-the-art models while being up to 6.8x smaller. Our training can be further sped up by progressively increasing the image size during training, but it often causes a drop in accuracy. To compensate for this accuracy drop, we propose to adaptively adjust regularization (e.g., dropout and data augmentation) as well, such that we can achieve both fast training and good accuracy. With progressive learning, our EfficientNetV2 significantly outperforms previous models on ImageNet and CIFAR/Cars/Flowers datasets. By pretraining on the same ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet ILSVRC2012, outperforming the recent ViT by 2.0% accuracy while training 5x-11x faster using the same computing resources. Code will be available at https://github.com/google/automl/tree/master/efficientnetv2.
研究の動機と目的
- ConvNetsにおける訓練効率とパラメータ効率の向上を動機づけ、同時に改善する。
- EfficientNetの訓練におけるボトルネックを探り、訓練を加速するためのアーキテクチャ上の選択肢を特定する。
- Accuracy、速度、パラメータ数を同時に最適化する、トレーニング認識NASとスケーリングのフレームワークを開発する。
- 訓練中に画像サイズを拡大しても精度を維持するため、適応正則化を用いたプログレッシブ学習を提案する。
- ImageNet21kでの効率的な事前学習により、ImageNetおよび転移学習の性能を強く示す。
提案手法
- EfficientNet (V1) の訓練ボトルネックを分析し、改良点を特定する。
- MBConvとFused-MBConvブロックを含む探索空間を拡張し、トレーニング認識NASを実行する。
- 非均一で段階的なスケーリング戦略を適用し、最大訓練画像サイズを上限設定する。
- 適応正則化を備えたプログレッシブ学習を導入し、精度の損失なしに訓練を高速化する。
- ImageNet21kで事前学習を行い、ImageNet ILSVRC2012および下流データセットでファインチューニングして一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1トレーニング認識NASはConvNetsの精度、訓練速度、パラメータ効率を同時に最適化できるか。
- RQ2MBConvおよびFused-MBConvブロックと非均一スケーリングは、精度を犠牲にすることなく訓練を速くし、より小さなモデルを生み出すか。
- RQ3適応正則化を用いたプログレッシブ学習は、ImageNetおよび転移タスクで精度の維持または向上を図りつつ訓練速度を改善できるか。
- RQ4訓練速度、パラメータ効率、推論待機時間の観点で、EfficientNetV2は従来のConvNetsおよびViTsとどう比較されるか。
- RQ5ImageNet21kでの事前学習が下流の転移学習性能に与える影響はどのようになるか。
主な発見
| モデル | Top-1 精度 | パラメータ | FLOPs | 推論時間 (ms) | 訓練時間 (時間) |
|---|---|---|---|---|---|
| EfficientNetV2-S | 83.9% | 22M | 8.8B | 24 | 7.1 |
| EfficientNetV2-M | 85.1% | 54M | 24B | 57 | 13 |
| EfficientNetV2-L | 85.7% | 120M | 53B | 98 | 24 |
| EfficientNetV2-XL | 87.3% | 208M | 94B | - | 45 |
- EfficientNetV2モデルは、ImageNetで従来モデルより訓練が5x–11x高速で、パラメータは最大6.8x小さくなる。
- MBConvとFused-MBConvを含む空間を持つトレーニング認識NASは、訓練速度とパラメータ効率の点でEfficientNetを上回るEfficientNetV2アーキテクチャを生み出す。
- 適応正則化を用いたプログレッシブ学習は訓練速度を大幅に向上させ、ImageNetおよび転移データセット全体で精度の向上または維持が可能。
- EfficientNetV2-Mは同じリソースを使用して訓練を11x高速化しつつ、EfficientNet-B7と同程度の精度を達成。
- ImageNet21kでの事前学習により、EfficientNetV2-L (21k)はImageNetで87.3%のtop-1に到達し、ViT-L/16(21k)を上回しつつ訓練は5x–11x速い。
- EfficientNetV2は、CIFAR-10、CIFAR-100、Flowers、Carsで、従来のConvNetsおよびViTsと比較して強力な転移学習性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。