Skip to main content
QUICK REVIEW

[論文レビュー] Scaling MLPs: A Tale of Inductive Bias

Gregor Bachmann, Sotiris Anagnostidis|arXiv (Cornell University)|Jun 23, 2023
Neural Networks and Applications被引用数 10
ひとこと要約

本論文では、MLPベースのビジョンモデルをスケールさせた場合の性能への影響を調査し、帰納的バイアスの欠如はデータと計算資源で補えること、スケールに伴いMLPが現代的なアーキテクチャと同様に振る舞うが、データ拡張とSGDバイアス効果の点で異なることを示しています。

ABSTRACT

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.

研究の動機と目的

  • 視覚特有の帰納的バイアスを持たずにスケールアップした場合、MLPが視覚タスクでどの程度性能を発揮するかを評価する。
  • 大規模な事前学習と転移学習において、MLPをCNNs/transformersと比較する。
  • データ拡張とSGDの暗黙のバイアスがMLPの性能に与える影響を定量化する。
  • MLPのスケーリング則と、パラメータとデータ間の最適な計算資源配分を特徴づける。

提案手法

  • 残差/ボトルネック構成を持つ、バニラおよびインバーテッドボトルネックMLPのバリアントを研究する。
  • データ拡張とLIONオプティマを用いて、CIFAR-10/100、TinyImageNet、STL10、およびImageNet系の変種でスクラッチから訓練する。
  • ImageNet21kでインバーテッドボトルネックMLPを事前訓練し、ファインチューニングとテスト時拡張を用いてCIFAR100、CIFAR10、ImageNet-ReaLへの転移を評価する。
  • 計算資源、データセットサイズ、パラメータ数を変化させ、下流の性能へ対するべき乗法則(パワー則)を当てはめてスケーリング法則を分析する。
  • スケールを横断して、事前訓練と下流タスクにおけるバッチサイズの役割を評価する。

実験結果

リサーチクエスチョン

  • RQ1従来の帰納的バイアスを使わずにスケールアップした場合、MLPは競争力のあるビジョン性能に到達できるか?
  • RQ2データ拡張、SGDバイアス、バッチサイズがスケールアップ時のMLPの訓練と一般化にどのように影響するか?
  • RQ3MLPはCNNs/Transformersと同様の性能スケーリング則を示すか、どの点で発散するか?
  • RQ4MLPのためのモデルサイズとデータセットサイズ間の最適な計算資源配分はどれか?
  • RQ5大規模MLPが学習した特徴の下流の視覚タスクへの転送性はどの程度か?

主な発見

  • MLPはスケールとともに改善し、大規模な計算資源とデータの下で顕著な下流精度を達成する(例:CIFAR-10で約95%、CIFAR-100で約82%、ImageNet-ReaLで約58%).
  • データ拡張による正則化はMLPにとって極めて重要で、特に大規模時に性能を大幅に向上させる可能性がある。
  • SGDのバッチサイズが大きくなると、MLPの一般化性能が予想外に向上する。CNNs/Transformersとは対照的。
  • MLPは、計算資源と誤差の間にべき乗則の関係を持つ現代的モデルのスケーリング挙動を映し出し、最適な計算資源配分はパラメータよりデータを多く確保する方が有利である。
  • ImageNet21kでの事前訓練と転移学習はMLPにとって強力な転送可能な特徴を示し、テスト時拡張とReaLラベルが性能を高め、特にCIFARデータセットで顕著である。
  • MLPの最適な計算資源配分は、P* ∝ C^0.35およびN* ∝ C^0.65のようにスケールし、固定計算資源下ではパラメータよりデータを重視する傾向を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。