QUICK REVIEW

[论文解读] A Survey on Recent Advances in Named Entity Recognition from Deep Learning models

Vikas Yadav, Steven Bethard|arXiv (Cornell University)|Oct 25, 2019

Topic Modeling参考文献 69被引用 468

一句话总结

本综述分析用于命名实体识别的深度神经网络架构，比较它们与特征工程方法，并凸显到目前为止在多语言与多领域的神经模型中的进展与关键洞察。

ABSTRACT

Named Entity Recognition (NER) is a key component in NLP systems for question answering, information retrieval, relation extraction, etc. NER systems have been studied and developed widely for decades, but accurate systems using deep neural networks (NN) have only been introduced in the last few years. We present a comprehensive survey of deep neural network architectures for NER, and contrast them with previous approaches to NER based on feature engineering and other supervised or semi-supervised learning algorithms. Our results highlight the improvements achieved by neural networks, and show how incorporating some of the lessons learned from past work on feature-based NER systems can yield further improvements.

研究动机与目标

将基于特征的系统向神经NER系统的演变综合起来，并量化神经架构带来的性能提升。
在多语言与多领域中对比神经方法与基于知识的以及特征工程方法。
识别有助于提升NER性能的架构模式与经验教训。
为复现与扩展神经NER系统提供指导与资源。

提出的方法

评审154篇文章并选择83篇覆盖神经架构与特征工程基线。
将NER系统分类为基于知识、引导式、特征工程和神经网络方法。
总结数据集、评估指标和共享任务以为性能提供背景。
比较词级、字符级以及混合表示在NER中的应用。
强调词典、地名表和词缀在神经NER中的作用。
报告来自CoNLL、DrugNER和生物医学数据集的跨语言与跨领域性能趋势。

实验结果

研究问题

RQ1神经网络NER系统在语言与领域上相对传统特征工程模型取得了哪些性能提升？
RQ2词级、字符级和混合表示在NER准确性方面的比较如何？
RQ3将词典、地名表与词缀特征融入神经NER架构会产生怎样的影响？
RQ4神经NER模型在多语言（CoNLL）和生物医学/药物相关数据集（DrugNER）上的表现如何？
RQ5过去基于特征的NER经验教训如何进一步提升现代神经方法？

主要发现

神经网络NER系统通常在所评估的数据集上优于特征工程模型。
词+字符混合模型通常优于纯词或纯字符模型。
在DrugNER中，词+字符模型的F1分数显著高于基线的特征工程方法。
一个增添词缀的字符+词模型为西班牙语、荷兰语和德语设立了新的最先进结果，并接近英语的表现。
融合过去特征工程的洞见（如词缀）可为神经NER系统带来有意义的提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。