[论文解读] Prompt-Learning for Fine-Grained Entity Typing
tldr: 本文研究如何利用提示学习在完全监督、少样本和零样本设置下执行细粒度实体类型识别,并在数据有限的情况下相比于常规微调取得改进。
As an effective approach to tune pre-trained language models (PLMs) for specific tasks, prompt-learning has recently attracted much attention from researchers. By using extit{cloze}-style language prompts to stimulate the versatile knowledge of PLMs, prompt-learning can achieve promising results on a series of NLP tasks, such as natural language inference, sentiment classification, and knowledge probing. In this work, we investigate the application of prompt-learning on fine-grained entity typing in fully supervised, few-shot and zero-shot scenarios. We first develop a simple and effective prompt-learning pipeline by constructing entity-oriented verbalizers and templates and conducting masked language modeling. Further, to tackle the zero-shot regime, we propose a self-supervised strategy that carries out distribution-level optimization in prompt-learning to automatically summarize the information of entity types. Extensive experiments on three fine-grained entity typing benchmarks (with up to 86 classes) under fully supervised, few-shot and zero-shot settings show that prompt-learning methods significantly outperform fine-tuning baselines, especially when the training data is insufficient.
研究动机与目标
- 激发使用提示学习来促进预训练语言模型在细粒度实体类型识别中的应用。
- 开发一个简单的提示学习流水线,使用面向实体的标签和模板。
- 研究有监督和自监督的提示学习,以应对数据稀缺的情境。
- 在完全监督、少样本和零样本设定下评估三个基准上的表现。
提出的方法
- 将实体类型识别表述为一种完形填空式任务,使用提示模板和标签词。
- 构建面向实体的标签词集合 V*,并将 P(y|x) 表示为对 V_y 中的每个 w 求 P([MASK] = w|T(x)) 的平均值。
- 探索硬编码的 T1–T3 和软编码的 T4 提示,以实例化用于预训练语言模型的提示。
- 用交叉熵损失 L = -log P(y|x; θ, φ) 训练 M,并与 M 共同优化提示参数 φ。
- 提出一种自监督提示学习方法,用于零样本类型识别,通过对比 V* 上的分布,使用正例句对和负例句对。
- 使用 Jensen-Shannon 散度衡量分布相似性,并通过对比式目标函数进行优化。
- 使用一个约 1M 的正负样本对数据集进行自监督学习,来自一个实体链接语料库。
实验结果
研究问题
- RQ1在完全监督的设定中,提示学习是否能超过传统微调在细粒度实体类型识别上的表现?
- RQ2在不同数据集上,硬编码和软编码提示在效果上有何比较?
- RQ3相对于传统微调,提示学习在少样本设定中是否具有优势?
- RQ4是否可以在无标注数据下通过自监督提示学习实现零样本实体类型识别?
- RQ5在分层类型集上进行实体属性检测的提示学习有哪些特征与局限性?
主要发现
| 数据集 | Acc (FT) | Acc (Plet H) | Acc (Plet S) | MiF (FT) | MiF (Plet H) | MiF (Plet S) | MaF (FT) | MaF (Plet H) | MaF (Plet S) |
|---|---|---|---|---|---|---|---|---|---|
| Few-NERD | 79.75 | 79.90 | 79.86 | 85.74 | 85.84 | 85.76 | 85.74 | 85.84 | 85.76 |
| OntoNotes | 59.71 | 60.37 | 65.68 | 70.47 | 70.78 | 74.53 | 76.57 | 76.42 | 79.77 |
| BBN | 62.39 | 65.92 | 63.11 | 68.88 | 71.55 | 68.68 | 67.37 | 70.82 | 67.81 |
- 基于提示的方法在三个基准上在许多设置中优于常规模型微调,提升幅度取决于数据可用性。
- 硬编码模板(T3)和软编码模板(T4)都优于微调,且有依数据集而定的偏好。
- 在完全监督设定中,Plet(hard)和 Plet(soft)在 Few-NERD、OntoNotes 和 BBN 上达到更高的准确率以及宏观/微观 F1 分数。
- 零样本和少样本情境中,提示学习带来显著收益,特别是在 OntoNotes 和 Few-NERD 上收益显著。
- 自监督提示学习通过在相似实体之间对标签词分布进行对齐,在没有显式标签的情况下提升零样本类型识别性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。