Skip to main content
QUICK REVIEW

[論文レビュー] Better plain ViT baselines for ImageNet-1k

Lucas Beyer, Xiaohua Zhai|arXiv (Cornell University)|May 3, 2022
Advanced Neural Network Applications被引用数 49
ひとこと要約

ImageNet-1k 用のシンプルな ViT ベースラインは、最小の標準的改良で競争力のある性能を達成し、90エポックで top-1 76.5%、300エポックで 80.0%、同様の学習条件下では ResNet-50 と同等。

ABSTRACT

It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.

研究の動機と目的

  • プレーンな ViT が最小限かつ標準的なトレーニングの微調整で ImageNet-1k で高い性能を達成できることを示す。
  • ベースライン ViT に対する性能向上に最も寄与する小さな変更を特定する。
  • 同等の計算資源の下で ResNet-50 と比較可能な、単純で再現性のあるベースラインを提供する。
  • 将来の研究の強い参照点として、単純な ViT セットアップの使用を促進する。

提案手法

  • 元の ViT アーキテクチャと標準的なデータ拡張を用いて ViT-S/16 を使用する。
  • ImageNet-1k の 99% をミニバリデーション用に 99% 分割して訓練し、テストセットの調整を避ける。
  • 固定の 2D sin-cos 位置埋め込みとクラス令牌の代わりにグローバル平均プーリング(GAP)を適用する。
  • RandAugment と Mixup を控えめなレベルで使用する(RandAugment レベル2, 10; Mixup p=0.2)。
  • バッチサイズを 1024 に設定(4096 ではなく);学習速度と精度を測るために 90, 150, 300 エポックで訓練する。
  • 追加の正則化、蒸留、あるいはアーキテクチャ変更を伴わない、シンプルな訓練パイプラインを維持する。

実験結果

リサーチクエスチョン

  • RQ1最小限の標準拡張を用いた ImageNet-1k のプレーン ViT ベースラインの性能はどの程度か?
  • RQ2小さな変更(位置埋め込み、プーリング、バッチサイズ、控えめな拡張) が 90、150、300 エポックの訓練で精度にどう影響するか?
  • RQ3簡単な ViT ベースラインは、同等の計算資源下で古典的な ResNet-50 の性能と同等になり得るか?
  • RQ4各小さな変更が最終の top-1 精度に与える相対的影響はどの程度か?

主な発見

条件90ep150ep300ep
私たちの改善76.578.580.0
RandAug+MixUpなし73.673.773.7
Posemb: sincos2d → 学習済み75.078.079.6
バッチサイズ: 1024 → 409674.777.378.6
Global Avgpool → [cls] トークン75.076.978.2
Head: MLP → 線形76.778.679.8
Original + RandAug + MixUp71.674.876.1
Original66.867.267.1
  • シンプルな ViT セットアップは 90 エポックで 76.5% の top-1、300 エポックで 80.0% に到達。
  • 提案された小さな変更は、元の ViT ベースラインより総じて顕著な改善をもたらす。
  • この設定では、グローバル平均プーリングと正弦波状の位置埋め込みが、クラス token 版を上回る。
  • 元のベースラインと比較して、 RandAugment と Mixup を控えめに適用すると顕著な利得に寄与する。
  • 90エポックの実行は TPUv3-8 で約 6h30 で完了し、同様の計算時間で ResNet-50 レベルの性能に近づく。
  • 150 エポックの訓練で 78.5% の top-1 を得る。300 エポックで 80.0% の top-1(報告通り)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。