[论文解读] Few-Shot Named Entity Recognition: A Comprehensive Study
该论文系统性地研究了四种策略——基于原型的元学习、在网络数据上进行有噪声的有监督预训练、以及自训练——并以 Transformer 作为骨干网络来提升少样本命名实体识别(few-shot NER),在10个数据集上实现了最新研究水平,并提供无训练选项。
This paper presents a comprehensive study to efficiently build named entity recognition (NER) systems when a small number of in-domain labeled data is available. Based upon recent Transformer-based self-supervised pre-trained language models (PLMs), we investigate three orthogonal schemes to improve the model generalization ability for few-shot settings: (1) meta-learning to construct prototypes for different entity types, (2) supervised pre-training on noisy web data to extract entity-related generic representations and (3) self-training to leverage unlabeled in-domain data. Different combinations of these schemes are also considered. We perform extensive empirical comparisons on 10 public NER datasets with various proportions of labeled data, suggesting useful insights for future research. Our experiments show that (i) in the few-shot learning setting, the proposed NER schemes significantly improve or outperform the commonly used baseline, a PLM-based linear classifier fine-tuned on domain labels; (ii) We create new state-of-the-art results on both few-shot and training-free settings compared with existing methods. We will release our code and pre-trained models for reproducible research.
研究动机与目标
- 在极少的领域内标注数据极为有限的情况下,推动高效的命名实体识别。
- 研究三种正交策略以提升少样本 NER 的泛化能力:基于原型的元学习、在网络数据上的有噪声有监督预训练,以及对未标注领域内数据的自训练。
- 在多样化的命名实体识别数据集上评估这些策略的组合,以为未来研究提供实践性指导。
- 提供关于每种策略在何时最有帮助以及它们如何互相补充的见解。
提出的方法
- 基于原型的元学习(原型网络)将实体类型表示为原型,并通过最近原型距离对查询标记进行分类。
- 在大规模网络数据(WiNER)上的有噪声有监督预训练(NSP),以学习与实体相关的表征,使用线性分类器或基于原型的目标函数。
- 自训练(ST)通过在有标签数据上训练一个教师模型以为未标注数据生成软标签,并据此训练学生模型,从而利用未标注的领域内数据。
- 对十个公开 NER 数据集,在不同标签可用性(5-shot、10%、100%)的条件下,系统评估组合(LC、NSP、ST)。
- 与 SoTA 方法的比较以及使用原型扩展在训练-free、未见类型推理场景中的分析。
实验结果
研究问题
- RQ1如何将基于原型的元学习应用于少样本 NER?
- RQ2在大规模网络数据上的有噪声有监督预训练是否提升少样本 NER 的鲁棒性和准确性?
- RQ3自训练是否能有效利用未标注的领域内数据来提升少样本 NER 的性能?
- RQ4这些策略的组合在不同数据集上与标准微调基线相比有何差异?
- RQ5在未见实体类型上实现训练-free 的 NER 的实际意义是什么?
主要发现
- 在有噪声有监督预训练方面,NER 准确率持续提升,尤其是在 5-shot 情况下。
- 基于原型的方法在 5-shot 的若干数据集上优于线性分类器,但依赖数据集,可能在其他数据集上表现不佳。
- 当有未标注数据可用时,自训练在所有数据集上持续提升少样本性能。
- 将三种方案(LC+NSP+ST)结合在一起在大多数情况下取得最佳结果,往往超过 SoTA 方法。
- 在无训练场景中,当存在未见类型时,多原型扩展有助于实现更好的最近邻推断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。