[论文解读] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
本论文在令牌危机下研究重复预训练数据(多轮训练),显示多轮退化,指出原因,并通过 dropout 与基于 MoE 的超参数调整提出缓解方法。
Recent research has highlighted the importance of dataset size in scaling language models. However, large language models (LLMs) are notoriously token-hungry during pre-training, and high-quality text data on the web is approaching its scaling limit for LLMs. To further enhance LLMs, a straightforward approach is to repeat the pre-training data for additional epochs. In this study, we empirically investigate three key aspects under this approach. First, we explore the consequences of repeating pre-training data, revealing that the model is susceptible to overfitting, leading to multi-epoch degradation. Second, we examine the key factors contributing to multi-epoch degradation, finding that significant factors include dataset size, model parameters, and training objectives, while less influential factors consist of dataset quality and model FLOPs. Finally, we explore whether widely used regularization can alleviate multi-epoch degradation. Most regularization techniques do not yield significant improvements, except for dropout, which demonstrates remarkable effectiveness but requires careful tuning when scaling up the model size. Additionally, we discover that leveraging mixture-of-experts (MoE) enables cost-effective and efficient hyper-parameter tuning for computationally intensive dense LLMs with comparable trainable parameters, potentially impacting efficient LLM development on a broader scale.
研究动机与目标
- 通过解决令牌稀缺(token-crisis)下扩展大语言模型时的数据瓶颈来推动本研究。
- 以实证方式量化重复预训练数据对模型性能及下游任务的影响。
- 识别驱动多轮退化的数据、模型和训练目标因素。
- 探索正则化与架构策略以缓解退化,包括 dropout 和专家混合(MoE)。
- 提出一种使用 MoE 的成本效益高的超参数调优方法,以预测更大密集模型的行为。
提出的方法
- 在 C4 上使用 T5 编码器-解码器配置,以重复数据重复进行预训练,评估对数据的需求行为;在 C4 上验证 Chinchilla 的缩放定律。
- 系统性地改变数据集大小、重复率和总计算量,以观察跨模型尺度(Base、Large、XL)的多轮退化。
- 在令牌危机下比较训练目标(MLM 与 UL2),以评估对退化和下游任务的影响。
- 通过消融研究评估正则化技术( dropout、dropPath、标签平滑、权重衰减),以确定有效的缓解措施。
- 使用 Mixture-of-Experts(MoE)和参数共享(ParamShare)以解耦参数与 FLOPs,并测试 MoE 作为更大密集模型行为的预测器。
- 结合 MoE 进行 dropout 扫描以识别最优 dropout 率,并展示基于 MoE 的超参数调优以降低计算需求。
实验结果
研究问题
- RQ1在令牌危机下重复预训练数据对 LLMs 的后果是什么?
- RQ2在数据重复时,哪些因素(数据、模型、训练目标)驱动多轮退化?
- RQ3正则化技术是否能缓解多轮退化,哪些最有效?
- RQ4MoE 架构和超参数调优是否能可靠地预测并替代大型密集模型调优成本?
- RQ5不同训练目标(MLM 与 UL2)在令牌危机下如何影响退化及下游性能?
主要发现
- 当使用重复的令牌进行训练时会出现多轮退化;在令牌危机下,较大模型更容易过拟合。
- 增大数据集规模可以缓解退化,而数据集质量本身并不能完全缓解;模型参数影响退化,而 FLOPs 影响有限。
- Mixture-of-Experts(MoE)可以以更低的 FLOPs 模拟更大密集模型的行为,从而实现成本效益高的超参数调优;通过 dropout 的正则化特别有效,而其他技巧效果有限或有负面影响。
- Dropout 能显著提升跨模型尺度的稳定性,尽管 XL 规模模型可能仍面临需要仔细调参的挑战;分阶段/逐步 dropout 可以在较少早期干扰的情况下达到同等性能。
- UL2 目标加速学习,但在令牌危机下可能表现出比原生 MLM 更强的多轮退化;多样化目标并不普遍缓解退化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。