[论文解读] From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning
论文提出了一种自我引导的数据选择方法用于大模型指令微调,引入 Instructions-Following Difficulty (IFD) 指标,从开源数据集中精挑细选高影响数据,在数据量大幅减少的情况下实现更强的结果。
In the realm of Large Language Models (LLMs), the balance between instruction data quality and quantity is a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal metric to identify discrepancies between a model's expected responses and its intrinsic generation capability. Through the application of IFD, cherry samples can be pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on datasets like Alpaca and WizardLM underpin our findings; with a mere $10\%$ of original data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the instruction tuning of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/tianyi-lab/Cherry_LLM
研究动机与目标
- 在保持或提升大模型指令执行质量的前提下,推动在指令微调中减少数据量。
- 引入自我引导的数据选择流程,从大规模开源数据集中识别出“樱桃数据”。
- 定义并利用 Instruction-Following Difficulty(IFD)指标来衡量指令在引导模型输出方面的有效性。
- 通过使用约5-10%的传统数据,在 Alpaca 和 WizardLM 基准测试中实现与之竞争或更优的效率提升。
提出的方法
- 阶段1:基于短期经验学习,使用指令嵌入的 K-Means 聚类来创建一个小型的预实验数据集,并将初始模型训练1个 epoch。
- 阶段2:基于经验的评估,通过将有条件回答损失与直接回答损失进行比较来定义 Instruction-Following Difficulty(IFD)分数,指导“樱桃数据”的选择。
- 阶段3:基于自我引导经验的再训练,使用所选高 IFD 样本来训练樱桃模型,实验中的基础模型为 Meta LLaMA-7B 基线。
- IFD 的计算公式为 IFD(Q,A) = s_theta(A|Q) / s_theta(A),其中 s_theta(A|Q) 是有条件的回答分数,s_theta(A) 是直接回答分数。
- 该方法筛选 IFD 分数高于 1 的样本,并利用预实验模型输出在目标数据集上获取 IFD 分数。
- 实验使用 Alpaca 和 WizardLM 数据集;模型以约5-10%的数据进行训练,并在多个测试集上进行评估。
- 评估依赖于通过 GPT-4/ChatGPT 对模型进行对比判断的对比评估,以及对抽样实例的人工评估。
实验结果
研究问题
- RQ1LLM 是否可以在无需大量人工筛选的情况下,从大型开源数据集中识别出高影响的指令执行数据?
- RQ2IFD 指标是否能有效区分导致更好指令执行性能的指令性样本?
- RQ3通过自我引导的 IFD 基于策略对数据进行“樱桃挑选”在指令微调中能带来多大数据效率提升?
- RQ4樱桃数据方法是否能在不同模型规模和开源基线(如 Alpaca、WizardLM、LLaMA2)中具有普适性?
- RQ5仅靠数据多样性与高质量樱桃数据在推动指令微调性能方面的比较如何?
主要发现
- 通过所提方法选取的大约 5-10% 数据训练的模型,在 Alpaca 和 WizardLM 基准测试上超过或达到使用全量数据训练的模型的表现。
- 在选择性数据上训练的樱桃模型,在 Huggingface Open LLM Leaderboard 与 AlpacaEval Leaderboard 上取得具有竞争力的结果,与更强基线相比亦如此。
- 消融研究显示随机数据、注重多样性的数据采样,以及低 IFD 分数的选择表现较差,凸显基于 IFD 的选择价值。
- 在 LLaMA2-7B 与 LLaMA2-13B 上的实验表明,该方法在不同基础模型和数据规模下仍然有效。
- 人工评估表明,樱桃数据选择与更具有挑战性、对指令对齐更重要的指令相符。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。