Skip to main content
QUICK REVIEW

[论文解读] Finetuned Language Models Are Zero-Shot Learners

Jason Wei, Maarten Bosma|arXiv (Cornell University)|Sep 3, 2021
Topic Modeling参考文献 119被引用 69
一句话总结

在60个以上的数据集上对一个137B参数的语言模型进行指令微调,数据集通过自然语言指令描述,这显著提升对未见任务的零-shot表现,在许多数据集上超过GPT-3的零-shot,在若干基准上也超过GPT-3的少-shot。

ABSTRACT

This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning -- finetuning language models on a collection of tasks described via instructions -- substantially improves zero-shot performance on unseen tasks. We take a 137B parameter pretrained language model and instruction-tune it on over 60 NLP tasks verbalized via natural language instruction templates. We evaluate this instruction-tuned model, which we call FLAN, on unseen task types. FLAN substantially improves the performance of its unmodified counterpart and surpasses zero-shot 175B GPT-3 on 20 of 25 tasks that we evaluate. FLAN even outperforms few-shot GPT-3 by a large margin on ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze. Ablation studies reveal that number of finetuning datasets, model scale, and natural language instructions are key to the success of instruction tuning.

研究动机与目标

  • 证明在通过自然语言指令描述的任务上对语言模型进行微调,可以提升其零-shot 任务性能。
  • 展示包含大量多样数据集混合的指令微调,如何影响对未见任务类型的泛化。
  • 评估模型规模、训练任务数量和指令质量在零-shot 增益中的作用。

提出的方法

  • 对一个137B参数的解码器式语言模型(LaMDA-PT)在超过60个NLP数据集的混合上进行微调,这些数据集通过自然语言指令模板来表达。
  • 为每个数据集创建十个指令模板来描述任务,其中包括一些将任务反转的模板以丰富提示。
  • 在未在指令微调中看到的保留任务簇上评估零-shot性能,使用基于簇的评估划分。
  • 在推理阶段通过指定允许的选项来改进分类任务输出,使用选项后缀。
  • 在评估的数据集上比较GPT-3(0-shot 与少样本)、GPT-3 175B和GLaM 的零-shot与少样本表现。
  • 对指令微调簇数量、模型规模、指令的作用以及少样本示例的影响进行消融实验。

实验结果

研究问题

  • RQ1在指令格式化任务上对语言模型进行微调,是否会提升其对未见任务类型的零-shot 性能?
  • RQ2诸如指令微调任务数量、模型规模和指令内容等因素,如何影响零-shot 泛化?
  • RQ3在多样化的NLP任务中,指令微调模型在零-shot与少-shot设定下在多大程度上优于GPT-3?
  • RQ4指令本身是否是增益的唯一原因,还是数据集模板和任务簇的划分也起着关键作用?
  • RQ5指令微调与其他提示方法(少样本提示、提示调整)之间的相互作用是什么?

主要发现

  • 相比未经过微调的基础模型,指令微调显著提升对未见任务的零-shot 性能。
  • FLAN 在评估的25个数据集中的20个上优于GPT-3的零-shot,在若干任务上还能超过GPT-3的少-shot表现。
  • 指令微调的收益随任务簇增多和模型规模增大而增加,对较小模型的增益较小。
  • 指令微调并非对所有任务都均匀提升;在可通过指令表述的任务上(NLI、QA、翻译)收益最强,而对如某些常识/共指等以语言建模形式表述的任务收益较弱。
  • 少样本示例进一步提升 FLAN 的性能并降低模板敏感性,特别是对于输出空间较大的任务。
  • 指令微调还提升了与提示微调的兼容性,在多种情形下带来改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。