[论文解读] LESS: Selecting Influential Data for Targeted Instruction Tuning
LESS 是一个针对优化器感知的数据选择方法,用于定向指令微调,使用 Adam 兼容的影响估计和低秩梯度数据存储来挑选一个小而高效的数据子集。它通常在仅使用 5% 数据的情况下,优于用全数据集训练,并且可跨模型规模和族群迁移。
Instruction tuning has unlocked powerful capabilities in large language models (LLMs), effectively using combined datasets to develop generalpurpose chatbots. However, real-world applications often require a specialized suite of skills (e.g., reasoning). The challenge lies in identifying the most relevant data from these extensive datasets to effectively develop specific capabilities, a setting we frame as targeted instruction tuning. We propose LESS, an optimizer-aware and practically efficient algorithm to effectively estimate data influences and perform Low-rank gradiEnt Similarity Search for instruction data selection. Crucially, LESS adapts existing influence formulations to work with the Adam optimizer and variable-length instruction data. LESS first constructs a highly reusable and transferable gradient datastore with low-dimensional gradient features and then selects examples based on their similarity to few-shot examples embodying a specific capability. Experiments show that training on a LESS-selected 5% of the data can often outperform training on the full dataset across diverse downstream tasks. Furthermore, the selected data is highly transferable: smaller models can be leveraged to select useful data for larger models and models from different families. Our qualitative analysis shows that our method goes beyond surface form cues to identify data that exemplifies the necessary reasoning skills for the intended downstream application.
研究动机与目标
- 将定向指令微调框定为选择在特定下游任务上最小化损失的数据。
- 将基于影响的数据选择适配到 Adam 和可变长度指令数据。
- 使用 LoRA 和随机投影构建可扩展的梯度数据存储,以实现高效的数据选择。
- 展示所选数据在模型规模和族群之间的可迁移性。
- 提供定性证据,表明 LESS 选择的数据与目标任务所需的推理能力相一致。
提出的方法
- 将一阶训练影响公式适配到 Adam,定义 Inf_Adam 作为基于梯度的影响度量。
- 使用 LoRA 实现参数高效的热身训练以提取梯度特征。
- 通过随机投影(Johnson–Lindenstrauss)将梯度投影到低维空间来构建梯度数据存储,实现高效相似度计算。
- 计算每个子任务的验证梯度平均值,并对候选数据使用 Inf_Adam 在子任务上的最大值来评分,选择5%训练子集。
- 离线执行数据选择,使用选择模型 M_S 并在选定子集上训练目标模型 M_T,从而实现迁移(LESS-T)。
- 使用三个下游数据集(MMLU、TydiQA、BBH)在多种基础模型(Llama-2-7B、Llama-2-13B、Mistral-7B)上进行评估。
实验结果
研究问题
- RQ1通过选择直接在目标验证任务上最小化损失的数据,定向指令微调是否可以得到改进?
- RQ2如何使基于影响的数据选择与 Adam 及可变长度指令数据兼容?
- RQ3低维梯度数据存储是否足够高效、用于选择有影响力的数据?
- RQ4小模型所选择的数据在更大模型或不同模型族中是否有效迁移?
- RQ5LESS 是否基于底层推理能力而不仅是表层文本相似性来选择数据?
主要发现
- 在 5% 的 LESS 选择子集上进行训练常常优于在整个数据集上训练,适用于多样化任务和模型。
- LESS 选择的数据具备良好的迁移性:由小模型选择的数据能提升更大模型的性能,以及来自不同族的模型的性能。
- LESS 在 MMLU、TydiQA、BBH 等任务上持续优于基线,如随机选择、BM25、DSIR 和 RDS。
- 使用一个小的热身子集(5%)结合多次梯度检查点可提升影响估计和最终准确度;更多的热身数据和更多检查点通常有帮助。
- 定性分析显示 LESS 选择的数据与目标任务所需的推理技能相一致,而不仅仅是表层文本相似性。
- 在迁移设置(LESS-T)中,使用 Llama-2-7B 梯度选择的数据在训练 Llama-2-13B 或 Mistral-7B 时表现出强劲结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。