[論文レビュー] ConvNets Match Vision Transformers at Scale
論文本 NFNet ConvNets は JFT-4B で事前訓練され、同等の計算予算でスケールさせて ImageNet でファインチューニングすると Vision Transformers に匹敵し、repeat augmentation で最大 90.4% Top-1 精度を達成することを示しています。
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
研究の動機と目的
- ConvNet アーキテクチャが大規模データと計算資源で事前訓練された場合、公正で比較可能な予算の下で Vision Transformers (ViTs) に匹敵するかを評価する。
- JFT-4B で事前訓練された NFNet モデルのさまざまな計算予算に対するスケーリング法則を特徴付ける。
- ImageNet のファインチューニング性能と実用的な拡張手法を評価し、ViTs との比較を行う。
- スケール感知訓練のための最適なモデルサイズ、エポック予算、学習率に関する実践的な指針を提供する。
提案手法
- JFT-4B 上で、深さと幅を変えた NFNet モデルを 0.25 から 8 の範囲のエポック予算で訓練し、Momentum を用いた SGD および Adaptive Gradient Clipping を適用する。
- 事前訓練の計算量を、ステップ数を推定し、保持データの損失と計算量の対数対数スケーリングを報告することで評価する。
- ImageNet へのファインチューニングを 50 エポック、解像度 384×384 で行い、480×480 で評価する。シャープネス意識最小化(SAM)を用い、ストochastic depth と dropout を併用する。
- ImageNet Top-1 の結果を、Large な JFT 類似データセットで訓練された公開 ViT 結果と比較し、事前訓練予算は最大 110k TPU-v4 コア時間までを想定する。
- 注: 事前訓練パイプラインは Brock ら. (2021) の NFNet アーキテクチャおよび訓練フレームワークを ImageNet データ処理へ調整してMirrorしている。
実験結果
リサーチクエスチョン
- RQ1ウェブ規模のデータで事前訓練された ConvNet アーキテクチャは、同等の計算予算で評価した場合に Vision Transformers を上回るか?
- RQ2JFT-4B で訓練された NFNet モデルの計算量、モデルサイズ、エポック数の観点からのスケーリング法則は何か?
- RQ3Aggressive augmentation を伴う ImageNet の事前訓練後のファインチューニングは ViTs と比較して性能にどのような影響を与えるか?
- RQ4計算予算が増えるにつれて、モデルサイズ、エポック数、学習率を選択する際の実用的なガイドラインは何か?
主な発見
- NFNet モデルは JFT-4B での事前訓練における検証損失と計算量の間で対数対数のスケーリング法則を示す。
- ImageNet へのファインチューニング後、NFNet は同様の計算予算で事前訓練済み ViT と同等の性能を達成する。
- 最も強力な NFNet(F7+)は、ファインチューニング時に繰り返し拡張を行えば 90.4% に到達可能であるが、 substantial な事前訓練計算量を前提とする。
- 110k TPU-v4 コア時間の事前訓練と 1.6k TPU-v4 時間のファインチューニングを組み合わせると 90.3% Top-1 に達し、繰り返し拡張により 90.4% に到達することができる。
- 小さなエポック予算では α ≈ 1.6 の学習率が最適であり、モデルや予算が大きくなるほど徐々に低下させることで、スケール間の効率的なチューニングを実現できる。
- ウェブ規模での ViT の ConvNet に対する優位性は、計算とデータを整合させて公正に設計したモデルを比較した場合、強く裏付けられない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。