[论文解读] Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
本论文推出 Sup-NatInst,一项包含 1,616 个自然语言指令任务的基准,以及一个多任务模型 T k-Instruct,能够泛化到未见任务,在英文任务上优于 InstructGPT,并展示出强大的跨语言泛化能力。
How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our collection covers 76 distinct task types, including but not limited to classification, extraction, infilling, sequence tagging, text rewriting, and text composition. This large and diverse collection of tasks enables rigorous benchmarking of cross-task generalization under instructions -- training models to follow instructions on a subset of tasks and evaluating them on the remaining unseen ones. Furthermore, we build Tk-Instruct, a transformer model trained to follow a variety of in-context instructions (plain language task definitions or k-shot examples). Our experiments show that Tk-Instruct outperforms existing instruction-following models such as InstructGPT by over 9% on our benchmark despite being an order of magnitude smaller. We further analyze generalization as a function of various scaling parameters, such as the number of observed tasks, the number of instances per task, and model sizes. We hope our dataset and model facilitate future progress towards more general-purpose NLP models.
研究动机与目标
- 通过一个大规模、多样化的公开 NLP 任务基准及其指令,扩展基于指令的泛化范围。
- 训练一个多任务模型以遵循陈述式的上下文指令,并展示对未见任务的零-shot 泛化。
- 分析影响跨任务和跨语言泛化的尺度因子(任务多样性、数据、模型规模)。
提出的方法
- 构建 Sup-NatInst,一个包含 1,616 个 NLP 任务的元数据集,带有自然语言任务定义、正/负样本,涵盖 76 种任务类型和 55 种语言。
- 将每个任务指令表示为统一的文本模式,并使用包含同行评审和众包反馈的多方贡献管线进行质量控制。
- 通过对所有训练任务指令进行多-task 训练,使用 T5 主干来训练 T k-Instruct 并对未见任务进行评估;还基于 mT5 训练面向非英文任务的多语言 MT k-Instruct。
- 通过在输入实例之前连接任务定义和选定的演示示例来编码指令,以形成提示。
- 使用开放式 ROUGE-L 生成度量在两个轨道上进行评估:英文未见任务和跨语言未见任务;并以人工评估作为补充。
实验结果
研究问题
- RQ1在提供陈述性自然语言指令的情况下,模型对未见 NLP 任务的泛化能力有多强?
- RQ2训练多样性(任务数量、每个任务的实例数量)和模型规模对未见任务泛化的影响如何?
- RQ3在未见任务上,是否在大量任务上训练的指令遵循模型能超过大型、专有的指令微调模型?
- RQ4在陈述式指令下,跨语言泛化与仅英文泛化相比如何?
主要发现
- T k-Instruct (11B) 在 119 个未见英文任务上比 InstructGPT (175B) 高出 9.9 的 ROUGE-L 点数。
- mT k-Instruct (13B) 在 35 个非英文任务上比 InstructGPT 高出 13.3 的 ROUGE-L 点数。
- 人工评估显示 T k-Instruct 的输出在测试实例中至少与真值一样好,占比 77%。
- Scaling diversity of training tasks and model size both improve cross-task generalization; an exponential increase in observed tasks and model size shows linear performance gains in ROUGE-L.
- 上限估计表明在当前指令微调模型之外仍有相当大的改进空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。