[论文解读] Training Compute-Optimal Large Language Models
本文表明,在 transformer 大语言模型的计算最优训练中,模型大小和训练令牌数量应大致按同等比例增长;他们通过训练一个计算最优的70B模型(Chinchilla)来验证这一点,该模型在下游任务上超过了如 Gopher 和 GPT-3 等更大规模的模型。
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, Chinchilla, that uses the same compute budget as Gopher but with 70B parameters and 4$ imes$ more more data. Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that Chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, Chinchilla reaches a state-of-the-art average accuracy of 67.5% on the MMLU benchmark, greater than a 7% improvement over Gopher.
研究动机与目标
- 在固定 FLOPs 预算下,确定预训练语言模型时模型规模与训练数据之间计算资源的最佳分配。
- 测试当前大型模型是否训练不足,以及参数与数据的等比例缩放是否能带来更好性能。
- 开发并评估遵循预测缩放的计算最优模型(Chinchilla),并与现有大型模型进行比较。
提出的方法
- 训练超过400个模型,参数范围从70M到>16B,令牌从5B到>400B,用以绘制 FLOPs–损失前沿。
- 拟合三种方法(固定模型大小并变动令牌数量;IsoFLOP 配置文件;参数化损失模型)以估计作为计算 C 的函数的最优 N 和 D。
- 假设模型大小与数据的计算关系满足幂律;推导 N_opt(C) ~ C^a 和 D_opt(C) ~ C^b,其中 a ≈ b ≈ 0.5。
- 在与 Gopher 相同计算预算下训练 Chinchilla(70B 参数,1.4T tokens)以验证预测的前沿。
- 将 Chinchilla 与 Gopher、GPT-3、Jurassic-1、MT-NLG 在多项基准测试上进行比较,包括 MMLU、BIG-bench、LAMBADA 和闭卷问答。
- 报告 Chinchilla 在若干指标上达到最先进的性能,例如在 MMLU 上的平均分为 67.5%。
实验结果
研究问题
- RQ1在固定 FLOPs 预算下,为预训练 Transformer 时,模型大小与训练令牌在计算资源上的最优分配是什么?
- RQ2随着计算资源增加,模型大小和数据量是否等比缩放以达到计算最优性能?
- RQ3以更大的数据训练计算最优的小模型(Chinchilla)是否在下游任务中优于更大、数据较匮乏的模型?
主要发现
- 最优缩放:模型大小和训练令牌应与计算量近似成正比扩展(N_opt ∝ C^a,D_opt ∝ C^b,a≈0.5,b≈0.5)。
- 当前大型 LLMs 在其计算预算下训练不足;计算最优模型需要的训练令牌数量多于在大型参数量下常用的数量。
- Chinchilla(70B,1.4T tokens)在多个下游任务上优于 Gopher、GPT-3、Jurassic-1、MT-NLG。
- Chinchilla 在 MMLU 上平均 67.5%,达到最新水平,较 Gopher 高出超过 7 个百分点。
- 由于参数数量较小,Chinchilla 的推理和微调计算量更低,同时在多种任务(The Pile、MMLU、BIG-bench、LAMBADA、RACE)上提供更好的性能。
- 论文还讨论与大型模型相关的偏见和毒性等风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。