QUICK REVIEW

[論文レビュー] Better plain ViT baselines for ImageNet-1k

Lucas Beyer, Xiaohua Zhai|arXiv (Cornell University)|May 3, 2022

Advanced Neural Network Applications被引用数 49

ひとこと要約

ImageNet-1k 用のシンプルな ViT ベースラインは、最小の標準的改良で競争力のある性能を達成し、90エポックで top-1 76.5%、300エポックで 80.0%、同様の学習条件下では ResNet-50 と同等。

ABSTRACT

It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.

研究の動機と目的

プレーンな ViT が最小限かつ標準的なトレーニングの微調整で ImageNet-1k で高い性能を達成できることを示す。
ベースライン ViT に対する性能向上に最も寄与する小さな変更を特定する。
同等の計算資源の下で ResNet-50 と比較可能な、単純で再現性のあるベースラインを提供する。
将来の研究の強い参照点として、単純な ViT セットアップの使用を促進する。

提案手法

元の ViT アーキテクチャと標準的なデータ拡張を用いて ViT-S/16 を使用する。
ImageNet-1k の 99% をミニバリデーション用に 99% 分割して訓練し、テストセットの調整を避ける。
固定の 2D sin-cos 位置埋め込みとクラス令牌の代わりにグローバル平均プーリング（GAP）を適用する。
RandAugment と Mixup を控えめなレベルで使用する（RandAugment レベル2, 10; Mixup p=0.2）。
バッチサイズを 1024 に設定（4096 ではなく）；学習速度と精度を測るために 90, 150, 300 エポックで訓練する。
追加の正則化、蒸留、あるいはアーキテクチャ変更を伴わない、シンプルな訓練パイプラインを維持する。

実験結果

リサーチクエスチョン

RQ1最小限の標準拡張を用いた ImageNet-1k のプレーン ViT ベースラインの性能はどの程度か？
RQ2小さな変更（位置埋め込み、プーリング、バッチサイズ、控えめな拡張) が 90、150、300 エポックの訓練で精度にどう影響するか？
RQ3簡単な ViT ベースラインは、同等の計算資源下で古典的な ResNet-50 の性能と同等になり得るか？
RQ4各小さな変更が最終の top-1 精度に与える相対的影響はどの程度か？

主な発見

条件	90ep	150ep	300ep
私たちの改善	76.5	78.5	80.0
RandAug+MixUpなし	73.6	73.7	73.7
Posemb: sincos2d → 学習済み	75.0	78.0	79.6
バッチサイズ: 1024 → 4096	74.7	77.3	78.6
Global Avgpool → [cls] トークン	75.0	76.9	78.2
Head: MLP → 線形	76.7	78.6	79.8
Original + RandAug + MixUp	71.6	74.8	76.1
Original	66.8	67.2	67.1

シンプルな ViT セットアップは 90 エポックで 76.5% の top-1、300 エポックで 80.0% に到達。
提案された小さな変更は、元の ViT ベースラインより総じて顕著な改善をもたらす。
この設定では、グローバル平均プーリングと正弦波状の位置埋め込みが、クラス token 版を上回る。
元のベースラインと比較して、 RandAugment と Mixup を控えめに適用すると顕著な利得に寄与する。
90エポックの実行は TPUv3-8 で約 6h30 で完了し、同様の計算時間で ResNet-50 レベルの性能に近づく。
150 エポックの訓練で 78.5% の top-1 を得る。300 エポックで 80.0% の top-1（報告通り）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。