QUICK REVIEW

[论文解读] Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Ningyu Zhang, Luoqiu Li|arXiv (Cornell University)|Aug 30, 2021

Topic Modeling参考文献 46被引用 75

一句话总结

DART 引入可微分的提示和标签优化，将小型语言模型转化为更强的少-shot 学习者，在标准微调上取得显著提升，并在 15 个 NLP 任务上与最先进的提示调优方法相比，呈现竞争性结果。

ABSTRACT

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance. Code is available in https://github.com/zjunlp/DART.

研究动机与目标

通过实现对小型 LM 的高效、插件式少-shot 学习来激励并解决大规模提示的局限性。
提出 DifferentiAble pRompT（DART）以在连续空间中优化提示模板和标签。
确保模型无关性与对广泛分类任务的可扩展性。
在少-shot 情况下通过辅助流畅性约束来稳定训练。
在 15 个 NLP 数据集上进行实证验证，包括具有复杂标签空间的任务。

提出的方法

使用伪标记构建可微分的模板并通过反向传播进行优化，而不添加模型参数。
用可训练嵌入将标签表示为连续空间，并映射到词汇表中的未使用标记，以避免外部参数优化。
引入辅助流畅性约束以强制提示嵌入之间的互相关联并保持语言模型的流畅性。
优化联合损失，结合类别判别（交叉熵）和流畅性约束（二元交叉熵）。
展示与不同 PLMs 的即插即用兼容性（如 RoBERTa-large、GPT-2-medium），并扩展到诸如关系抽取与事件抽取等任务。
与常规微调和 LM-BFF 风格的提示调优进行对比，突出在少-shot 情况下的性能提升。

实验结果

研究问题

RQ1在使用小到中等规模的预训练语言模型时，可微分的提示和标签优化是否能改善少-shot 学习？
RQ2与固定提示相比，联动优化模板和标签嵌入并加入流畅性约束是否能获得更具判别性的表示？
RQ3DART 方法是否在不同 NLP 任务和标签空间中具有即插即用和模型无关性？
RQ4在具有复杂标签语义的任务（如关系抽取、事件抽取）上，DART 相较于标准微调和现有提示调优方法的表现如何？

主要发现

数据集	模型	K=8	K=16	K=32	全部
SemEval	Fine-tuning	26.3	43.8	64.2	87.8
SemEval	LM-BFF	43.2	62.0	72.9	88.0
SemEval	DART	51.8	67.2	77.3	89.1
TACRED-Revisit	Fine-tuning	7.4	15.5	25.8	75.0
TACRED-Revisit	LM-BFF	21.0	23.7	27.1	76.4
TACRED-Revisit	DART	25.8	30.1	31.8	77.8
Wiki80	Fine-tuning	46.3	60.3	70.0	87.5
Wiki80	LM-BFF	66.5	73.5	78.1	86.2
Wiki80	DART	68.5	75.2	79.4	88.1
ChemProt	Fine-tuning	30.2	41.5	52.5	79.5
ChemProt	LM-BFF	55.0	56.1	60.0	79.1
ChemProt	DART	57.2	60.8	63.1	81.0

DART 在 15 个 NLP 数据集的少-shot 设置中始终优于传统微调（例如，在 K=8 下，关系抽取数据集的绝对提升最高可达 23.28%）。
DART 在 LM-BFF 方面具有竞争力，在某些任务上超越 P-tuning，尤其当标签具有复杂语义时。
在关系抽取和事件抽取等具有大量类别的任务中，DART 在少-shot 和全监督设置下均显示出显著提升（如 TACRED-Revisit、Wiki80、ChemProt）。
消融研究显示所有组成部分——流畅性约束、可微分模板和可微分标签——均有助于性能提升，其中在低资源情境下对可微分标签的优化尤其显著。
可视化分析表明，可微分提示比固定提示产生更具判别性、紧凑的表示，与精度提升相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。