[論文レビュー] Machine Learning Model Sizes and the Parameter Gap
論文は、歴史的なモデルサイズの成長をドメイン横断で分析し、2018年以降の急激な加速を特定し、言語モデルにおける20B–70Bパラメータの持続的な「パラメータギャップ」を文書化し、それを説明する仮説を提案する。
We study trends in model size of notable machine learning systems over time using a curated dataset. From 1950 to 2018, model size in language models increased steadily by seven orders of magnitude. The trend then accelerated, with model size increasing by another five orders of magnitude in just 4 years from 2018 to 2022. Vision models grew at a more constant pace, totaling 7 orders of magnitude of growth between 1950 and 2022. We also identify that, since 2020, there have been many language models below 20B parameters, many models above 70B parameters, but a scarcity of models in the 20-70B parameter range. We refer to that scarcity as the parameter gap. We provide some stylized facts about the parameter gap and propose a few hypotheses to explain it. The explanations we favor are: (a) increasing model size beyond 20B parameters requires adopting different parallelism techniques, which makes mid-sized models less cost-effective, (b) GPT-3 was one order of magnitude larger than previous language models, and researchers afterwards primarily experimented with bigger models to outperform it. While these dynamics likely exist, and we believe they play some role in generating the gap, we don't have high confidence that there are no other, more important dynamics at play.
研究の動機と目的
- 公開されたMLモデルサイズの長期的トレンドを、ドメイン横断で評価する(視覚系、言語、ゲーム、その他)。
- 20Bと70Bパラメータの間に現れるパラメータギャップの出現と性質を特徴づける。
- パラメータギャップの潜在的な説明を評価し、データによって最も支持される要因を特定する。
提案手法
- 1950年代〜2022年のパラメータ数を含む238の著名なMLモデルのキュレーションデータセットを作成し、分析する。
- 時間とともにモデルサイズに対して、対数線形の指数成長モデルを対数正規ノイズとともに適合させる。
- 観測されたパラメータギャップの統計的有意性を評価するためにモンテカルロシミュレーションを実施する。
- 言語専用モデルと他のドメインを分けて分析し、ギャップのドメイン依存性を検証する。
実験結果
リサーチクエスチョン
- RQ1MLドメイン全体でのモデルサイズの歴史的成長パターンはどのようなものか?
- RQ2公開された言語モデルにおいて20Bと70Bのパラメータ間に実質的なギャップが存在するか、偶然にどれだけ起こりやすいか?
- RQ3パラメータギャップを説明しうる要因(例:並列性、計算リソース、外部インセンティブ)は何か?
- RQ4ギャップの説明は言語モデルと他のドメインのモデルで異なるか?
- RQ5将来のハードウェアまたは方法論の変化は、ギャップが継続するか閉じるかにどのような影響を与えるか?
主な発見
| Period | Data | Scale (start to end) | Slope | Doubling time | R2 | |
|---|---|---|---|---|---|---|
| 1952 to 2018 | n=109 | 1e+01 to 3e+7 params | 0.1 OOMs/year | 39.1 months | 0.62 | |
| 2018 to 2022 | (single trend) | n=129 | 3e+7 to 2e+12 params | 0.9 OOMs/year | 4.2 months | 0.31 |
| 2018 to 2022 | (above gap) | n=27 | 7e+10 to 2e+12 params | 0 OOMs/year | 209 months | 0.00 |
| 2018 to 2022 | (below gap) | n=102 | 3e+7 to 2e+10 params | 0.5 OOMs/year | 8 months | 0.25 |
- 言語モデルは2018年以降に大きな成長加速を示し、70Bより上と20Bより下の第2クラスター(パラメータギャップ)が現れる。
- 1952年〜2018年の成長は約0.1OOMs/年、2018〜2022年は単一トレンドで約0.9OOMs/年だが、ギャップ以下とギャップ以上の2つのクラスターが現れる(ギャップ以下は0.5 OOMs/年、ギャップ以上は明確なトレンドなし)。
- 統計分析は、20B–70Bギャップが偶然で生じる可能性は極めて低い(単純な対数正規-指数モデル下で確率約1e-5)ことを示唆する。
- ギャップは主に言語モデルに存在し、Otherドメインに限定するとギャップはランダムノイズで説明可能である。
- より大きなモデルが増え、ハードウェア/経済条件が進化するにつれてギャップは縮小し、ドメインが追いつくことで消える可能性を示唆する。
- 最も支持される説明は、トレーニング/推論の並列性の閾値と最先端モデルの影響の組み合わせを指すが、単一の説明が決定的であるとは言えない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。