QUICK REVIEW

[論文レビュー] Scaling Laws for Neural Language Models

Jared Kaplan, Sam McCandlish|arXiv (Cornell University)|Jan 23, 2020

Topic Modeling参考文献 43被引用数 1,478

ひとこと要約

本論文は、言語モデルのクロスエントロピー損失がモデルサイズ、データセットサイズ、計算量の関数としてべき乗則に従うことを実証的に確立し、アーキテクチャへの依存はごくわずかで、7つのオーダーオブマグニチュードにわたるスケーリングにわたって強く、移植可能な挙動を示す。

ABSTRACT

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

研究の動機と目的

言語モデルの性能がモデルサイズ、データセットサイズ、計算量に対してどのようにスケールするかを調査する。
Transformer言語モデルにおけるアーキテクチャとスケールの役割を定量化する。
性能を予測し、計算効率の良い学習を導く実用的な法則を導出する。
スケーリング下での過学習挙動と無限データ極限を探る。
固定された計算予算を最大限活用する最適な割り当てについて指針を提供する。

提案手法

WebText2 上で、幅広いサイズ（埋め込みなしパラメータを除く約1.5Bまで）の Transformer および LSTM モデルを訓練する。
1024トークンのコンテキストで、同一分布データと転移データセットのクロスエントロピー損失を測定する。
観測された性能を、N（パラメータ数）、D（データセットサイズ）、C（計算量）について L ∝ X^−α のべき法則に適合させる。
NとDの関数としての過学習を記述するために、結合スケーリング則 L(N,D) = [ (Nc/N)^{αN/αD} + Dc/D ]^{αD} を提案する。
固定された計算予算の下で最適な計算使用量と訓練ステップをモデル化するために Cmin と Smin を定義・活用する。
訓練効率を最適化するために、クリティカル・バッチサイズ Bcrit と損失との関係を分析する。

実験結果

リサーチクエスチョン

RQ1言語モデルのクロスエントロピー損失は、モデルサイズ、データセットサイズ、計算量とともにどのようにスケールするか。
RQ2N（非埋め込みパラメータ）を固定した場合、性能のアーキテクチャ形状への依存はどれくらい弱いか。
RQ3固定計算予算の下で性能を最大化する最適な計算割り当てを予測できるか。
RQ4N–D平面で過学習を支配する要因は何か、そして D → ∞ のとき L(N,D) はどう振る舞うか。
RQ5モデルサイズが大きくなるにつれて、転移性能は分布内性能とどのように相関するか。

主な発見

他の要因にボトルネックされていない場合、性能は各スケール因子 N、D、C に対してべき則に従う。
モデル性能はスケールに強く、アーキテクチャの形状（深さ・幅・ヘッド数）には比較的弱く依存する。
N–D 平面の過学習は、N^{αN/αD}/D の比率で支配され、αN ≈ 0.076、αD ≈ 0.103 であり、N が大きくなるにつれて過学習を避けるにはデータ要件がサブリニアであることを意味する。
訓練曲線は、モデルサイズにほぼ依存しない予測可能なべき法則を示し、より長い訓練時間への外挿を可能にする。
大規模モデルはサンプル効率が高く、同様の性能に達するための最適化ステップとデータ量を少なくて済む。固定予算下では、最適な計算割り当てはモデルサイズの増加を優先する。
訓練の最適バッチサイズは臨界バッチサイズ Bcrit に整合し、Bcrit(L) ≈ B*/L^{1/αB}、B* ≈ 2e8、αB ≈ 0.21 でスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。