QUICK REVIEW

[论文解读] Finetuned Language Models Are Zero-Shot Learners

Jason Wei, Maarten Bosma|arXiv (Cornell University)|Sep 3, 2021

Topic Modeling参考文献 119被引用 69

一句话总结

在60个以上的数据集上对一个137B参数的语言模型进行指令微调，数据集通过自然语言指令描述，这显著提升对未见任务的零-shot表现，在许多数据集上超过GPT-3的零-shot，在若干基准上也超过GPT-3的少-shot。

ABSTRACT

This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning -- finetuning language models on a collection of tasks described via instructions -- substantially improves zero-shot performance on unseen tasks. We take a 137B parameter pretrained language model and instruction-tune it on over 60 NLP tasks verbalized via natural language instruction templates. We evaluate this instruction-tuned model, which we call FLAN, on unseen task types. FLAN substantially improves the performance of its unmodified counterpart and surpasses zero-shot 175B GPT-3 on 20 of 25 tasks that we evaluate. FLAN even outperforms few-shot GPT-3 by a large margin on ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze. Ablation studies reveal that number of finetuning datasets, model scale, and natural language instructions are key to the success of instruction tuning.

研究动机与目标

证明在通过自然语言指令描述的任务上对语言模型进行微调，可以提升其零-shot 任务性能。
展示包含大量多样数据集混合的指令微调，如何影响对未见任务类型的泛化。
评估模型规模、训练任务数量和指令质量在零-shot 增益中的作用。

提出的方法

对一个137B参数的解码器式语言模型（LaMDA-PT）在超过60个NLP数据集的混合上进行微调，这些数据集通过自然语言指令模板来表达。
为每个数据集创建十个指令模板来描述任务，其中包括一些将任务反转的模板以丰富提示。
在未在指令微调中看到的保留任务簇上评估零-shot性能，使用基于簇的评估划分。
在推理阶段通过指定允许的选项来改进分类任务输出，使用选项后缀。
在评估的数据集上比较GPT-3（0-shot 与少样本）、GPT-3 175B和GLaM 的零-shot与少样本表现。
对指令微调簇数量、模型规模、指令的作用以及少样本示例的影响进行消融实验。

实验结果

研究问题

RQ1在指令格式化任务上对语言模型进行微调，是否会提升其对未见任务类型的零-shot 性能？
RQ2诸如指令微调任务数量、模型规模和指令内容等因素，如何影响零-shot 泛化？
RQ3在多样化的NLP任务中，指令微调模型在零-shot与少-shot设定下在多大程度上优于GPT-3？
RQ4指令本身是否是增益的唯一原因，还是数据集模板和任务簇的划分也起着关键作用？
RQ5指令微调与其他提示方法（少样本提示、提示调整）之间的相互作用是什么？

主要发现

相比未经过微调的基础模型，指令微调显著提升对未见任务的零-shot 性能。
FLAN 在评估的25个数据集中的20个上优于GPT-3的零-shot，在若干任务上还能超过GPT-3的少-shot表现。
指令微调的收益随任务簇增多和模型规模增大而增加，对较小模型的增益较小。
指令微调并非对所有任务都均匀提升；在可通过指令表述的任务上（NLI、QA、翻译）收益最强，而对如某些常识/共指等以语言建模形式表述的任务收益较弱。
少样本示例进一步提升 FLAN 的性能并降低模板敏感性，特别是对于输出空间较大的任务。
指令微调还提升了与提示微调的兼容性，在多种情形下带来改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。