[論文レビュー] Better plain ViT baselines for ImageNet-1k
ImageNet-1k 用のシンプルな ViT ベースラインは、最小の標準的改良で競争力のある性能を達成し、90エポックで top-1 76.5%、300エポックで 80.0%、同様の学習条件下では ResNet-50 と同等。
It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.
研究の動機と目的
- プレーンな ViT が最小限かつ標準的なトレーニングの微調整で ImageNet-1k で高い性能を達成できることを示す。
- ベースライン ViT に対する性能向上に最も寄与する小さな変更を特定する。
- 同等の計算資源の下で ResNet-50 と比較可能な、単純で再現性のあるベースラインを提供する。
- 将来の研究の強い参照点として、単純な ViT セットアップの使用を促進する。
提案手法
- 元の ViT アーキテクチャと標準的なデータ拡張を用いて ViT-S/16 を使用する。
- ImageNet-1k の 99% をミニバリデーション用に 99% 分割して訓練し、テストセットの調整を避ける。
- 固定の 2D sin-cos 位置埋め込みとクラス令牌の代わりにグローバル平均プーリング(GAP)を適用する。
- RandAugment と Mixup を控えめなレベルで使用する(RandAugment レベル2, 10; Mixup p=0.2)。
- バッチサイズを 1024 に設定(4096 ではなく);学習速度と精度を測るために 90, 150, 300 エポックで訓練する。
- 追加の正則化、蒸留、あるいはアーキテクチャ変更を伴わない、シンプルな訓練パイプラインを維持する。
実験結果
リサーチクエスチョン
- RQ1最小限の標準拡張を用いた ImageNet-1k のプレーン ViT ベースラインの性能はどの程度か?
- RQ2小さな変更(位置埋め込み、プーリング、バッチサイズ、控えめな拡張) が 90、150、300 エポックの訓練で精度にどう影響するか?
- RQ3簡単な ViT ベースラインは、同等の計算資源下で古典的な ResNet-50 の性能と同等になり得るか?
- RQ4各小さな変更が最終の top-1 精度に与える相対的影響はどの程度か?
主な発見
| 条件 | 90ep | 150ep | 300ep |
|---|---|---|---|
| 私たちの改善 | 76.5 | 78.5 | 80.0 |
| RandAug+MixUpなし | 73.6 | 73.7 | 73.7 |
| Posemb: sincos2d → 学習済み | 75.0 | 78.0 | 79.6 |
| バッチサイズ: 1024 → 4096 | 74.7 | 77.3 | 78.6 |
| Global Avgpool → [cls] トークン | 75.0 | 76.9 | 78.2 |
| Head: MLP → 線形 | 76.7 | 78.6 | 79.8 |
| Original + RandAug + MixUp | 71.6 | 74.8 | 76.1 |
| Original | 66.8 | 67.2 | 67.1 |
- シンプルな ViT セットアップは 90 エポックで 76.5% の top-1、300 エポックで 80.0% に到達。
- 提案された小さな変更は、元の ViT ベースラインより総じて顕著な改善をもたらす。
- この設定では、グローバル平均プーリングと正弦波状の位置埋め込みが、クラス token 版を上回る。
- 元のベースラインと比較して、 RandAugment と Mixup を控えめに適用すると顕著な利得に寄与する。
- 90エポックの実行は TPUv3-8 で約 6h30 で完了し、同様の計算時間で ResNet-50 レベルの性能に近づく。
- 150 エポックの訓練で 78.5% の top-1 を得る。300 エポックで 80.0% の top-1(報告通り)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。