[论文解读] Finetuned Language Models Are Zero-Shot Learners
在60个以上的数据集上对一个137B参数的语言模型进行指令微调,数据集通过自然语言指令描述,这显著提升对未见任务的零-shot表现,在许多数据集上超过GPT-3的零-shot,在若干基准上也超过GPT-3的少-shot。
This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning -- finetuning language models on a collection of tasks described via instructions -- substantially improves zero-shot performance on unseen tasks. We take a 137B parameter pretrained language model and instruction-tune it on over 60 NLP tasks verbalized via natural language instruction templates. We evaluate this instruction-tuned model, which we call FLAN, on unseen task types. FLAN substantially improves the performance of its unmodified counterpart and surpasses zero-shot 175B GPT-3 on 20 of 25 tasks that we evaluate. FLAN even outperforms few-shot GPT-3 by a large margin on ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze. Ablation studies reveal that number of finetuning datasets, model scale, and natural language instructions are key to the success of instruction tuning.
研究动机与目标
- 证明在通过自然语言指令描述的任务上对语言模型进行微调,可以提升其零-shot 任务性能。
- 展示包含大量多样数据集混合的指令微调,如何影响对未见任务类型的泛化。
- 评估模型规模、训练任务数量和指令质量在零-shot 增益中的作用。
提出的方法
- 对一个137B参数的解码器式语言模型(LaMDA-PT)在超过60个NLP数据集的混合上进行微调,这些数据集通过自然语言指令模板来表达。
- 为每个数据集创建十个指令模板来描述任务,其中包括一些将任务反转的模板以丰富提示。
- 在未在指令微调中看到的保留任务簇上评估零-shot性能,使用基于簇的评估划分。
- 在推理阶段通过指定允许的选项来改进分类任务输出,使用选项后缀。
- 在评估的数据集上比较GPT-3(0-shot 与少样本)、GPT-3 175B和GLaM 的零-shot与少样本表现。
- 对指令微调簇数量、模型规模、指令的作用以及少样本示例的影响进行消融实验。
实验结果
研究问题
- RQ1在指令格式化任务上对语言模型进行微调,是否会提升其对未见任务类型的零-shot 性能?
- RQ2诸如指令微调任务数量、模型规模和指令内容等因素,如何影响零-shot 泛化?
- RQ3在多样化的NLP任务中,指令微调模型在零-shot与少-shot设定下在多大程度上优于GPT-3?
- RQ4指令本身是否是增益的唯一原因,还是数据集模板和任务簇的划分也起着关键作用?
- RQ5指令微调与其他提示方法(少样本提示、提示调整)之间的相互作用是什么?
主要发现
- 相比未经过微调的基础模型,指令微调显著提升对未见任务的零-shot 性能。
- FLAN 在评估的25个数据集中的20个上优于GPT-3的零-shot,在若干任务上还能超过GPT-3的少-shot表现。
- 指令微调的收益随任务簇增多和模型规模增大而增加,对较小模型的增益较小。
- 指令微调并非对所有任务都均匀提升;在可通过指令表述的任务上(NLI、QA、翻译)收益最强,而对如某些常识/共指等以语言建模形式表述的任务收益较弱。
- 少样本示例进一步提升 FLAN 的性能并降低模板敏感性,特别是对于输出空间较大的任务。
- 指令微调还提升了与提示微调的兼容性,在多种情形下带来改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。