[論文レビュー] ResNet strikes back: An improved training procedure in timm
要約: 本研究は、224×224 の標準推論解像度で vanilla ResNet-50 の訓練を現代の訓練要素(Mixup、CutMix、RandAugment、BCE loss、正則化、そして大規模バッチ LAMB オプティマイザ)を用いて再最適化し、強力なベースラインを設定して安定性を評価し、ImageNet-val で 80.4% top-1 を報告する。
The influential Residual Networks designed by He et al. remain the gold-standard architecture in numerous scientific publications. They typically serve as the default architecture in studies, or as baselines when new architectures are proposed. Yet there has been significant progress on best practices for training neural networks since the inception of the ResNet architecture in 2015. Novel optimization & data-augmentation have increased the effectiveness of the training recipes. In this paper, we re-evaluate the performance of the vanilla ResNet-50 when trained with a procedure that integrates such advances. We share competitive training settings and pre-trained models in the timm open-source library, with the hope that they will serve as better baselines for future work. For instance, with our more demanding training setting, a vanilla ResNet-50 reaches 80.4% top-1 accuracy at resolution 224x224 on ImageNet-val without extra data or distillation. We also report the performance achieved with popular models with our training procedure.
研究の動機と目的
- 現代的な訓練要素を用いて標準推論解像度(224×224)で vanilla ResNet-50 の性能を最大化する方法を示す。
- timm における公平なアーキテクチャ比較のための強力なベースライン訓練手順と事前学習モデルを提供。
- 最適化された学習手順のシードやデータセット間での安定性を調査し、測定ノイズと過学習リスクを評価。
- 最適化レシピをさまざまなアーキテクチャと下流タスクへ転移学習性能と一般化を示す。
提案手法
- 3 種類の ResNet-50 訓練手順(A1: 600 epochs、A2: 300 epochs、A3: 100 epochs)を、チューニングされたハイパーパラメータと要素とともに適用。
- 混合概念の存在を反映させるため、Mixup と CutMix を用いた多ラベル BCE loss を採用。
- RandAugment の variants、Mixup、CutMix、Repeat Augmentation、確率的深さ正則化をスケジュール依存で使用。
- デフォルトとしてコサイン学習率スケジュールを用いた大規模バッチ最適化(LAMB); Appendix B の CE/BCE アブレーションおよび代替オプティマイザと比較。
- ImageNet-val、ImageNet-V2、ImageNet-Real における性能を多くのシードで評価して訓練の安定性を評価。
- 提案された事前訓練レシピを用いた七つの下流データセットで転移学習性能を報告。
実験結果
リサーチクエスチョン
- RQ1224×224 で ImageNet-1k val 精度を最大化する timm 内の最適な ResNet-50 訓練手順は何か?
- RQ2現代的な訓練要素(拡張、正則化、損失選択)はバッチサイズとエポック数とどのように相互作用して vanilla ResNet-50 の性能に影響を与えるか?
- RQ3最適化された手順下で random seeds および関連するテストセット(val、V2、Real)間で ImageNet 精度はどの程度安定しているか?
- RQ4提案された訓練手順はより大きなアーキテクチャと下流タスクへの転移効果を持つか?
- RQ5同じ訓練レシピをモデル間で再利用した場合、アーキテクチャ対手法の比較はどのように振る舞うか?
主な発見
| 手法 | エポック数 | 解像度 | トレーニング時間 (h) | GPUあたりのピークメモリ (MB) | GPU数 | Top-1 検証 | Top-1 Realデータ | Top-1 V2データ |
|---|---|---|---|---|---|---|---|---|
| A1 | 600 | 224×224 | 110 | 22095 | 4 | 80.4 | 85.7 | 68.7 |
| A2 | 300 | 224×224 | 55 | 22095 | 4 | 79.8 | 85.4 | 67.9 |
| A3 | 100 | 160×160 | 15 | 11390 | 4 | 78.1 | 84.5 | 66.1 |
- A1 手順(600 epochs)は 224×224 で ImageNet-val の Top-1 精度 80.4% を達成し、従来の vanilla ResNet-50 ベースラインを上回る。
- 正則化と拡張の選択(Mixup、CutMix、RandAugment、Repeat Augmentation を含む)と BCE loss および LAMB オプティマイザを組み合わせることで、大規模バッチサイズ(2048)で強力な性能を発揮。
- A2(300 epochs)は Top-1 val 精度 79.8% を提供し、現代の訓練で一般的なより長いスケジュールと競合的な結果を示す。A3(100 epochs)は 78.1% のトップ-1 を示し、スケジュール間のコスト/便益のトレードオフを描く。
- シード分散分析により、ImageNet-val の標準偏差は約 0.1、ImageNet-V2 では分散が大きいことが確認され、測定ノイズと複数テストセットを報告する価値を強調。
- A1/A2 レシピを他のアーキテクチャへ転移させると、いくつかのモデルで文献ベースラインを上回る。A1 は多くのタスクで下流転移が最も良好である。
- 本論文はアーキテクチャ間の比較には訓練手順を揃える必要があることを示しており、同じ手順がモデル間で相対的なランキングを変える可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。