[论文解读] Making Pre-trained Language Models Better Few-shot Learners
LM-BFF 将基于提示的微调、自动提示生成和选择性演示结合起来,在中等规模的语言模型上显著提升小样本学习效果,相较标准微调实现最高约30%的绝对增益。在少样本设置下,它在分类和回归任务中对 RoBERTa-large 展示出强大的任务无关性能。
The recent GPT-3 model (Brown et al., 2020) achieves remarkable few-shot performance solely by leveraging a natural-language prompt and a few task demonstrations as input context. Inspired by their findings, we study few-shot learning in a more practical scenario, where we use smaller language models for which fine-tuning is computationally efficient. We present LM-BFF--better few-shot fine-tuning of language models--a suite of simple and complementary techniques for fine-tuning language models on a small number of annotated examples. Our approach includes (1) prompt-based fine-tuning together with a novel pipeline for automating prompt generation; and (2) a refined strategy for dynamically and selectively incorporating demonstrations into each context. Finally, we present a systematic evaluation for analyzing few-shot performance on a range of NLP tasks, including classification and regression. Our experiments demonstrate that our methods combine to dramatically outperform standard fine-tuning procedures in this low resource setting, achieving up to 30% absolute improvement, and 11% on average across all tasks. Our approach makes minimal assumptions on task resources and domain expertise, and hence constitutes a strong task-agnostic method for few-shot learning.
研究动机与目标
- 以中等规模的语言模型(如 RoBERTa/BERT)为例,推动实用的少样本学习,而不是像 GPT-3 这样的巨型模型。
- 开发一个任务无关、简单易用的技术集合,以用最少数据改进微调。
- 在多种 NLP 任务(分类和回归)上评估基于提示的微调和演示策略。
- 提供自动化的提示和演示生成工作流,以减少人工工程设计。
提出的方法
- 将下游任务视为掩码语言模型并使用标签词的提示式微调。
- 通过 (i) 自动选择标签词(verbalizers)和 (ii) 使用基于 T5 的搜索自动生成模板来实现自动提示生成。
- 动态与选择性演示,按类别抽取单个示例并与输入配对,形成最小化的演示集。
- 对 8 个单句任务和 7 个句对任务进行系统评估,使用多次随机拆分来评估稳定性。
- 在少样本设置下,与标准微调和 GPT-3 风格的上下文学习进行比较。
实验结果
研究问题
- RQ1在少样本情境下,基于提示的微调结合自动生成的提示能否达到甚至超越手动设计的提示?
- RQ2通过谨慎抽样的演示是否能在中等规模的语言模型上提升超越标准微调的性能?
- RQ3自动标签词选择和自动模板生成如何促进跨任务(分类与回归)的鲁棒少样本学习?
- RQ4演示抽样策略和模板质量对少样本性能的影响是什么?
- RQ5该方法任务无关且资源高效,是否足以在现实世界中落地?
主要发现
- 基于提示的微调在少样本设置下显著优于标准微调。
- 自动提示生成(模板和标签词)在若干任务中能够达到甚至超越人工提示。
- 结合精心设计的抽样策略的演示在少样本性能上带来额外提升。
- 综合 LM-BFF 方法在所评估的任务上实现最高约 30% 的绝对提升,平均提升约 11%。
- 在 RoBERTa-large、仅 32 个训练样本的情况下,许多二元 SST-2 风格任务的准确率达到约 90%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。