[论文解读] Meta-tuning Language Models to Answer Prompts Better.
本文提出元微调(meta-tuning),以在不损害零样本泛化能力的前提下,使大型语言模型更好地适应零样本提示(prompting)。通过在43个数据集上进行微调,这些数据集被统一为包含441种标签描述的问答格式,模型在未见过的任务上表现优于同等规模的专用任务问答模型,表明通过有针对性的预训练,可以系统性地提升模型对提示的理解能力。
Large pretrained language models like GPT-3 have acquired a surprising ability to perform zero-shot classification (ZSC). For example, to classify review sentiments, we can prompt the language model with the review and the question Is the review positive? as the context, and ask it to predict whether the next word is Yes or No. However, these models are not specialized for answering these prompts. To address this weakness, we propose meta-tuning, which trains the model to specialize in answering prompts but still generalize to unseen tasks. To create the training data, we aggregated 43 existing datasets, annotated 441 label descriptions in total, and unified them into the above question answering (QA) format. After meta-tuning, our model outperforms a same-sized QA model for most labels on unseen tasks, and we forecast that the performance would improve for even larger models. Therefore, measuring ZSC performance on non-specialized language models might underestimate their true capability, and community-wide efforts on aggregating datasets and unifying their formats can help build models that understand prompts better.
研究动机与目标
- 解决大型语言模型虽具备强大的零样本分类能力,却未针对提示回答进行专门优化的局限性。
- 通过训练模型更好地理解并响应基于提示的指令,提升其在未见任务上的性能。
- 将多样化数据集统一为一致的问答格式,以实现一致的提示训练。
- 证明元微调在未见任务上比标准零样本提示具有更好的泛化能力。
- 表明社区范围内的数据集聚合与格式统一可显著提升大型语言模型对提示的理解能力。
提出的方法
- 作者收集了43个现有数据集,并将其标签转换为441种不同的标签描述,采用问答格式。
- 每个样本被转换为提示形式:输入上下文 + 问题(例如,'该评论是正面的吗?')+ 目标答案(是/否)。
- 使用标准语言建模范式,在此统一的、基于提示的数据集上对模型进行微调。
- 应用元微调,使模型专门化于提示理解,同时保留其对未见任务的泛化能力。
- 训练数据的构建确保了跨领域和标签类型的统一性,从而实现广泛适用性。
- 该方法在保持模型零样本能力的同时,提升了其在基于提示分类任务上的表现。
实验结果
研究问题
- RQ1大型语言模型能否在不损失零样本泛化能力的前提下,系统性地提升对提示的理解能力?
- RQ2在统一的提示格式数据上进行元微调,与标准零样本推理相比,对未见任务的性能影响如何?
- RQ3数据集聚合与格式统一在多大程度上提升了模型在基于提示分类任务上的性能?
- RQ4元微调是否优于训练同等规模的专用任务问答模型?
- RQ5随着模型规模的增加,大型模型的性能是否可通过元微调进一步提升?
主要发现
- 元微调后,该模型在大多数未见任务的标签上表现优于同等规模的专用任务问答模型。
- 性能的提升表明,非专门化模型在零样本分类任务上的表现可能低估了其真实潜力。
- 通过使模型专门化于基于提示的推理,元微调实现了对未见任务更好的泛化能力。
- 作者预测,随着模型规模增大,性能将进一步提升,表明该方法具有良好的可扩展性。
- 将多样化数据集统一为一致的问答格式,显著增强了模型理解并响应提示的能力。
- 结果表明,通过在统一的、针对提示优化的数据上进行有针对性的预训练,可以系统性地提升模型对提示的理解能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。