QUICK REVIEW

[论文解读] Neural Architectures for Nested NER through Linearization

Jana Straková, Milan Straka|arXiv (Cornell University)|Aug 19, 2019

Natural Language Processing Techniques被引用 2

一句话总结

本文通过将嵌套实体结构线性化为多标签 BILOU 编码方案，提出了两种用于嵌套命名实体识别（NER）的神经架构。第一种采用带多标签的标准化双向LSTM-CRF模型，第二种将嵌套NER建模为使用硬注意力机制的序列到序列任务。两种模型在四个嵌套NER语料库（ACE-2004、ACE-2005、GENIA 和捷克CNEC）上均优于先前的最先进方法，尤其在使用BERT、ELMo和Flair等上下文嵌入增强后表现更优。

ABSTRACT

We propose two neural network architectures for nested named entity recognition (NER), a setting in which named entities may overlap and also be labeled with more than one label. We encode the nested labels using a linearized scheme. In our first proposed approach, the nested labels are modeled as multilabels corresponding to the Cartesian product of the nested labels in a standard LSTM-CRF architecture. In the second one, the nested NER is viewed as a sequence-to-sequence problem, in which the input sequence consists of the tokens and output sequence of the labels, using hard attention on the word whose label is being predicted. The proposed methods outperform the nested NER state of the art on four corpora: ACE-2004, ACE-2005, GENIA and Czech CNEC. We also enrich our architectures with the recently published contextual embeddings: ELMo, BERT and Flair, reaching further improvements for the four nested entity corpora. In addition, we report flat NER state-of-the-art results for CoNLL-2002 Dutch and Spanish and for CoNLL-2003 English.

研究动机与目标

为解决自然语言处理中重叠与嵌套命名实体带来的挑战，标准NER模型因标签冲突而失效。
开发无需显式构建句法或超图结构的神经架构，以隐式建模嵌套实体关系。
通过线性化并增强的BILOU标签方案编码复杂实体层次结构，提升嵌套NER语料库的性能。
评估近期上下文词嵌入（BERT、ELMo、Flair）在提升嵌套与平坦NER任务性能方面的有效性。

提出的方法

使用增强的BILOU方案编码嵌套实体，基于优先规则为每个词元分配多个标签：起始位置更早且长度更长的实体优先。
第一种模型将多标签视为嵌套标签的笛卡尔积，并应用标准LSTM-CRF进行序列标注。
第二种模型将嵌套NER建模为序列到序列任务：输入为词元序列，输出为标签序列，包含一个特殊<eow>标记以表示词元预测结束。
在序列到序列解码器中使用硬注意力机制，以关注当前正在标注的词元，从而实现每个实体预测的动态上下文建模。
在两种模型中均使用上下文词嵌入（ELMo、BERT、Flair）作为输入特征，以丰富词元表示。
使用严格跨度与类别匹配的方式进行模型训练与评估，测试结果报告于训练集与开发集的拼接数据上。

实验结果

研究问题

RQ1标准LSTM-CRF的简单多标签扩展是否能在无需显式结构建模的情况下有效处理嵌套NER？
RQ2将嵌套NER建模为使用硬注意力机制的序列到序列问题，是否能在复杂且高度嵌套的语料库中带来更好的性能？
RQ3近期上下文嵌入（BERT、ELMo、Flair）如何提升嵌套与平坦NER基准测试的性能？
RQ4增强的BILOU编码方案是否能有效保留神经序列标注中的嵌套实体结构？
RQ5在高度重叠的嵌套语料库（如ACE-2004和ACE-2005）中，序列到序列架构是否比标准序列标注具有更好的泛化能力？

主要发现

当使用BERT+Flair嵌入时，序列到序列模型在ACE-2004上取得84.40的F1分数，在ACE-2005上为84.33，在GENIA上为78.31，在捷克CNEC 1.0上为86.88，达到最先进水平。
使用BERT+Flair的LSTM-CRF模型在ACE-2004上取得81.22的F1分数，在CNEC 1.0上为85.70，优于先前的神经与非神经方法。
在ACE-2004和ACE-2005上，序列到序列模型显著优于所有先前方法，其中39%的训练句子包含重叠提及。
在平坦NER任务中，模型也取得了最先进结果：在CoNLL-2003英语数据集上F1为93.07，在荷兰语数据集上为92.69，在西班牙语数据集上为88.81，均使用BERT+Flair。
上下文嵌入的引入在所有语料库中均一致提升了性能，其中BERT+Flair带来最高增益。
增强的BILOU编码有效实现了嵌套结构的线性化，使标准神经架构能够隐式学习复杂的层次关系。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。