[论文解读] Scaling Data-Constrained Language Models
本文探讨在数据有限的情况下如何扩展大型语言模型,提出考虑重复的数据约束扩展定律,并显示在固定计算预算下,多轮训练和较小模型可以超过单轮训练、较大模型的配置。
The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.
研究动机与目标
- 随着模型规模增长,数据限制成为挑战,推动研究。
- 在固定计算预算下量化重复数据的影响。
- 开发并验证扩展Chinchilla扩展的、面向数据约束的扩展定律。
- 探索如代码增强和过滤等互补策略,以缓解数据稀缺。
提出的方法
- 使用GPT-2架构训练高达8.7B参数的Transformer语言模型,数据量多达900B个token。
- 通过将数据拆分为唯一token和重复token来引入数据约束的扩展框架。
- 通过具有指数衰减样特征的有效数据(D′)和有效参数(N′)来推广损失缩放定律,以考虑数据重复。
- 基于400+次训练结果拟合扩展定律参数。
- 在固定唯一数据、固定 FLOPs、以及参数外推的条件下评估资源分配与回报。
- 尝试代码数据增强和数据过滤策略,以评估互补数据策略。
实验结果
研究问题
- RQ1在数据有限时,应该如何在模型规模和数据轮次数之间分配计算资源?
- RQ2在固定计算预算下重复数据的价值及收益递减点在哪?
- RQ3数据约束扩展定律能否将Chinchilla框架扩展到重复数据情境?
- RQ4诸如代码增强和放宽过滤等策略是否在数据稀缺的情况下提升下游性能?
主要发现
- 重复数据在约16轮后收益递减,在此之前仍有显著提升。
- 在数据受限的情况下,相比于扩大模型规模,优先将更多计算分配给更多轮次,特别是在重复超过初始最优点时。
- 数据约束扩展定律能准确预测损失趋势,并在数据重复时描绘出与Chinchilla不同的有效前沿。
- 代码数据增强在自然语言任务中可带来大约2倍左右的有效token增益。
- 去重过滤对下游任务不总是有益,而基于困惑度的过滤在更嘈杂的数据集上有帮助。
- 将代码增强与数据重复结合可以在开始时达到相当于拥有更多独特数据的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。