[论文解读] Large Language Model Instruction Following: A Survey of Progresses and Challenges
本综述全面评述了自然语言处理中的指令遵循,涵盖三种指令类型(NLI 取向、LLM 取向和人类取向)、建模策略、数据集、评估以及未来挑战。
Task semantics can be expressed by a set of input-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning to follow task instructions, i.e., instruction following. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize and provide insights to the current research on instruction following, particularly, by answering the following questions: (i) What is task instruction, and what instruction types exist? (ii) How to model instructions? (iii) What are popular instruction following datasets and evaluation metrics? (iv) What factors influence and explain the instructions' performance? (v) What challenges remain in instruction following? To our knowledge, this is the first comprehensive survey about instruction following.
研究动机与目标
- 定义并对任务指令和指令类型进行分类,超越提示语。
- 解释指令如何被编码并用于对新任务的泛化。
- 评审指令遵循的数据集和评估指标。
- 分析影响指令遵循性能的因素及实际挑战。
- 提出改进LLMs指令遵循的未来方向。
提出的方法
- 将指令类型分类为NLI取向、LLM取向和人类取向,并将其与间接监督联系起来。
- 讨论建模策略,包括语义解析、扁平化与拼接、HyperNetworks以及RLHF。
- 描述间接监督的视角,以及每种指令类型如何利用监督源。
- 总结指令遵循数据集,以及人工标注数据与LLM合成数据之间的权衡。
- 回顾评估方案,包括自动化指标、人工评估和基于LLM的评估者。
实验结果
研究问题
- RQ1任务指令是什么?存在哪些指令类型?
- RQ2如何对指令进行编码和建模以促进泛化?
- RQ3指令遵循使用了哪些数据集和评估指标?
- RQ4哪些因素影响指令遵循的性能,仍存在哪些挑战?
- RQ5LLMs 的指令遵循未来方向是什么?
主要发现
- 指令遵循可以分为三种类型:NLI取向、LLM取向和人类取向的指令。
- NLI取向和LLM取向的指令分别依赖于来自NLI数据集或语言建模的间接监督,以实现零-shot或少量-shot泛化。
- 人类取向的指令需要更复杂的建模,但在任务覆盖范围和最终用户友好性方面更广,尤其在指令微调后。
- RLHF(来自人类反馈的强化学习)用于使模型与人类偏好对齐,包括预测漂移惩罚和奖励建模。
- 指令微调数据集可以是人工标注的(高质量、多样性有限)或LLM合成的(多样性更高、噪声更大),混合通常更有利。
- 对指令遵循的评估结合了自动化指标、人工评估和基于LLM的评估者,各自存在偏差与权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。