Skip to main content
QUICK REVIEW

[论文解读] Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

Yangming Li, lemao liu|arXiv (Cornell University)|Dec 9, 2020
Topic Modeling参考文献 25被引用 49
一句话总结

本论文分析NER中的未标注实体问题,识别两种退化原因,并提出一种基于负采样的方法,结合基于BERT的评分,减少误导并提升鲁棒性,在基准和真实世界数据集上实现具有竞争力的结果。

ABSTRACT

In many scenarios, named entity recognition (NER) models severely suffer from unlabeled entity problem, where the entities of a sentence may not be fully annotated. Through empirical studies performed on synthetic datasets, we find two causes of performance degradation. One is the reduction of annotated entities and the other is treating unlabeled entities as negative instances. The first cause has less impact than the second one and can be mitigated by adopting pretraining language models. The second cause seriously misguides a model in training and greatly affects its performances. Based on the above observations, we propose a general approach, which can almost eliminate the misguidance brought by unlabeled entities. The key idea is to use negative sampling that, to a large extent, avoids training NER models with unlabeled entities. Experiments on synthetic datasets and real-world datasets show that our model is robust to unlabeled entity problem and surpasses prior baselines. On well-annotated datasets, our model is competitive with the state-of-the-art method.

研究动机与目标

  • 研究未标注实体在真实和合成场景中如何降低NER性能。
  • 量化注释减少与将未标注跨度误标为负样本的影响。
  • 开发一种训练方法,在维持在充分标注数据上的性能的同时,缓解来自未标注实体的误导。
  • 在合成数据集、真实语料和标准基准上评估所提方法,以建立鲁棒性和竞争力。

提出的方法

  • 提出未标注实体问题并定义退化度量(侵蚀率和误导率)。
  • 构建基于跨度的NER评分模型,使用BERT对标记表示进行编码,并计算跨度特征(s_{i,j})。
  • 通过负采样进行训练,即从未标注跨度子集中抽取一部分作为负样本,以避免在全 supervision 中将未标注实体视为负样本(方程7)。
  • 将推断定义为贪心跨度选择,通过为每个跨度选择最高分的非O标签并丢弃重叠的低分跨度来解决冲突。
  • 通过合成屏蔽实验和真实世界数据集(EC、NEWS)分析鲁棒性。
  • 给出在负采样下漏检未标注实体的概率的理论探讨(Eq. 8)。

实验结果

研究问题

  • RQ1未标注实体注释在不同架构和数据情境下对NER性能有何影响?
  • RQ2由于未标注实体导致的退化的主要原因有哪些,哪一个影响更大?
  • RQ3负采样是否能够在不牺牲在充分标注数据上的准确性的前提下,有效消除来自未标注实体的训练误导?
  • RQ4与基线相比,所提方法在合成、真实世界和完全标注的数据集上的表现如何?

主要发现

  • 未标注实体导致两种退化效果:标注实体减少以及将未标注跨度当作负样本;后者影响更大。
  • 使用预训练语言模型(例如BERT)减轻注释减少的影响,尤其在更高掩码率下。
  • 负采样显著减少误导,即使未标注跨度增加也能保持性能。
  • 在合成数据集上,所提模型结合负采样明显优于BERT Tagging,尤其在更高的掩码概率下(例如在CoNLL-2003 p=0.6时绝对提升高达27.16%)。
  • 在真实世界数据集(EC、NEWS)上,与若干基线相比达到新的state-of-the-art,F1分数提升显著。
  • 在充分标注数据(CoNLL-2003、OntoNotes 5.0)上,模型与最先进方法相比具有竞争力,差距非常小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。