[論文レビュー] Training Compute-Optimal Large Language Models
本論文は、トランスフォーマー型LLMの計算最適な訓練のためには、モデルサイズと訓練トークン数が概ね同等の割合でスケールすべきであることを示す。彼らは、計算最適な70Bモデル(Chinchilla)を訓練してこれを検証し、GopherやGPT-3のようなより大きなモデルを下流タスクで上回ることを示している。
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, Chinchilla, that uses the same compute budget as Gopher but with 70B parameters and 4$\times$ more more data. Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that Chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, Chinchilla reaches a state-of-the-art average accuracy of 67.5% on the MMLU benchmark, greater than a 7% improvement over Gopher.
研究の動機と目的
- 固定されたFLOPs予算の下で、言語モデルを事前学習させる際のモデルサイズと訓練データ間の計算資源の最適配分を決定する。
- 現在の大規模モデルが過少学習かどうか、パラメータとデータの等しいスケーリングがより良い性能をもたらすかを検証する。
- 予測されたスケーリングに従う計算最適モデル(Chinchilla)を開発・評価し、既存の大規模モデルと比較する。
提案手法
- FLOPsと損失の前線を写像するため、70Mから>16Bパラメータまでの400以上のモデルを、5Bから>400Bトークン上で訓練する。
- 計算資源Cの関数として最適なNとDを推定するため、3つのアプローチ(固定モデルサイズと可変トークン数; IsoFLOPプロファイル; パラメトリック損失モデル)を適合させる。
- モデルサイズとデータに対する計算のべき法則関係を仮定し、N_opt(C) ~ C^a および D_opt(C) ~ C^b を導出する。a ≈ b ≈ 0.5。
- Chinchilla(70Bパラメータ、1.4Tトークン)をGopherと同じ計算予算で訓練し、予測された前線を検証する。
- ChinchillaをGopher、GPT-3、Jurassic-1、MT-NLGと比較し、MMLU、BIG-bench、LAMBADA、閉題QAなどを含む複数のベンチマークで評価する。
- Chinchillaは、いくつかの指標で最新の性能を達成したと報告される。例えばMMLUの平均67.5%など。
実験結果
リサーチクエスチョン
- RQ1固定されたFLOPs予算の下で、トランスフォーマーを事前訓練する際のモデルサイズと訓練トークン数の最適な計算資源配分は何か?
- RQ2モデルサイズとデータは、計算資源の増加とともに等しくスケールして計算最適な性能を達成するか?
- RQ3より少ないデータしか持たない大規模モデルより、計算最適な小型モデルをより多くのデータで訓練したChinchillaは、下流タスクで優れた性能を発揮するか?
主な発見
- 最適なスケーリング:モデルサイズと訓練トークンの両方が、計算資源とほぼ等しい比率でスケールすべきである(N_opt ∝ C^a, D_opt ∝ C^b、a≈0.5、b≈0.5)。
- 現在の大規模LLMは、計算予算に対して過少訓練されている。計算最適モデルは、一般的に使用される大規模パラメータ数よりも多くの訓練トークンを必要とする。
- Chinchillaは、多くの下流タスクで、Gopher(280B、300Bトークン)、GPT-3(175B、300Bトークン)、Jurassic-1(178B、300Bトークン)、MT-NLG(530B、270Bトークン)を上回る。
- ChinchillaはMMLUで平均67.5%の最先端性能を達成し、Gopherを7ポイント超上回る。
- Chinchillaは、パラメータ数が小さいことによる推論およびファインチューニング計算量の削減を実現しつつ、The Pile、MMLU、BIG-bench、LAMBADA、RACEなど多様なタスクでより良い性能を発揮する。
- 論文はまた、大規模モデルに関連するバイアスや有害性などのリスクについても論じている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。