[论文解读] Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases
本文分析不同规模的指令数据如何影响现实世界的中文使用场景中的指令遵循型大语言模型,结果发现对某些任务数据量增多可带来广泛收益,但在数学和代码方面的改进趋于稳定。同时讨论数据质量和未来方向。
The success of ChatGPT has recently attracted numerous efforts to replicate it, with instruction-tuning strategies being a key factor in achieving remarkable results. Instruction-tuning not only significantly enhances the model's performance and generalization but also makes the model's generated results more consistent with human speech patterns. However current research rarely studies the impact of different amounts of instruction data on model performance, especially in the real-world use cases. In this paper we explore the performance of large language models based on instruction tuning across different scales of instruction data. An evaluation dataset consisting of 12 major online use cases is constructed in the experiment. With Bloomz-7B1-mt as the base model, the results show that 1) merely increasing the amount of instruction data leads to continuous improvement in tasks such as open-ended generation, 2) in tasks such as math and code, the model performance curve remains quite flat while increasing data size. We further analyze the possible causes of these phenomena and propose potential future research directions such as effectively selecting high-quality training data, scaling base models and training methods specialized for hard tasks. We will release our training and evaluation datasets, as well as model checkpoints.
研究动机与目标
- 研究指令数据规模变化对指令遵循型大语言模型在现实任务中的性能的影响。
- 创建一个覆盖12个在线使用场景的中文指令训练与评估数据集。
- 逐任务分析规模对性能的影响以识别瓶颈和最优数据范围。
- 提出未来工作方向,包括数据质量、基础模型扩展以及特定任务的训练方法。
提出的方法
- 使用四个数据规模对 Bloomz-7B1-mt 基础模型进行微调:0.2M、0.6M、1M 和 2M 指令,分别命名为 BELLE-7B-0.2M、BELLE-7B-0.6M、BELLE-7B-1M、BELLE-7B-2M。
- 通过将种子翻译为中文并结合 ChatGPT 的上下文学习进行扩展来生成指令数据;策划评估数据与一个 12 类型测试集。
- 使用 ChatGPT 作为评估者对模型回答进行评估,对每条指令的评分在 0 到 1 之间,并在三次运行中取平均。
- 逐任务分析性能以识别哪些任务受益于数据扩展、哪些任务达到饱和,并讨论数据质量作为限制因素。
实验结果
研究问题
- RQ1指令数据规模如何影响现实世界中文使用场景中指令遵循型大语言模型的表现?
- RQ2哪些任务类型在数据增多时呈现持续收益,哪些出现平台期?
- RQ3对像数学、代码和链式推理等困难任务的改进受哪些瓶颈限制?
- RQ4如何利用数据质量与数据选择策略进一步提升指令调整结果?
主要发现
- 随着指令数据的增加,性能通常有所提升,尤其是对开放式生成任务。
- 数学、代码和链式推理(COT)任务在大约 1M 数据量后收益有限,表明数据质量或模型规模受限。
- 提取、分类、封闭式问答和摘要任务在更多数据上仍有收益,尽管在极大规模下增益可能趋于平缓。
- 翻译、改写、生成与头脑风暴等任务在 2M 指令或更少时也能获得良好表现。
- 基线性能在若干任务中使用大约 200k 的训练示例时已相当不错,表明不同任务的数据效率存在差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。