QUICK REVIEW

[論文レビュー] Scaling Data-Constrained Language Models

Niklas Muennighoff, Alexander M. Rush|arXiv (Cornell University)|May 25, 2023

Topic Modeling被引用数 32

ひとこと要約

この論文は、データが限られているときに大規模言語モデルをどうスケーリングするかを調査し、繰り返しを考慮したデータ制約付きスケーリング則を導入し、より多くのエポックと小さなモデルが、固定計算予算の下で単一エポックの大規模モデル設定を上回る可能性があることを示す。

ABSTRACT

The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.

研究の動機と目的

モデルサイズが大きくなるにつれてデータ制限をどのように解決するかを動機づける。
固定計算予算の下でデータを繰り返す影響を定量化する。
Chinchillaスケーリングを拡張するデータ制約付きスケーリング則を開発・検証する。
データ不足を緩和する補完戦略としてコード拡張やフィルタリングを探索する。

提案手法

GPT-2アーキテクチャを用いたトランスフォーマー言語モデルを最大8.7Bパラメータ、最大900Bトークンまで訓練する。
データをユニークトークンと繰り返しに分割してデータ制約付きスケーリングフレームワークを導入する。
データ繰り返しを考慮した損失スケーリング法を、効果的データD′と効果的パラメータN′を用いた指数減衰様の項で一般化する。
400回以上の訓練実験の経験則からスケーリング法パラメータを適合させる。
固定ユニークデータ、固定FLOPs、パラメトリック外挿による割り当てとリターンを評価する。
コードデータ拡張とデータフィルタリング戦略を試して補完的なデータ戦略を評価する。

実験結果

リサーチクエスチョン

RQ1データが限られているとき、モデルサイズとデータエポック間で計算をどのように配分すべきか？
RQ2固定計算予算の下でデータを繰り返すことの価値と逓減するリターンはどの程度か？
RQ3データ制約付きスケーリング則は繰り返しデータの領域においてChinchillaフレームワークを拡張できるか？
RQ4コード拡張や緩和されたフィルタリングのような戦略はデータ不足下で下流の性能を改善するか？

主な発見

繰り返しデータは約16エポクまで逓減するリターンがある一方で、それまでの点では大きな利得がある。
データ制約下では、繰り返しが初期の最適点を超える場合に特に、より多くのエポックに対してより多くの計算を割り当てるべきで、より大きなモデルよりも効果的である。
データ制約付きスケーリング則は損失の傾向を正確に予測し、データが繰り返される場合にChinchillaとは異なる効率的なフロンティアを示す。
コードデータ拡張は自然言語タスクに対して有効トークンを約2倍程度増やす可能性がある。
デュプリケーション除去フィルタは下流タスクには一貫して有益とは言えない一方、困難なデータセットではパープレキシティベースのフィルタリングが役立つ。
コード拡張とデータ繰り返しを組み合わせると、最初からより多くのユニークデータがある場合と同等の性能を達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。