QUICK REVIEW

[论文解读] CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

Yuying Zhu, Guoxin Wang|arXiv (Cornell University)|Apr 3, 2019

Topic Modeling参考文献 43被引用 68

一句话总结

CAN-NER 引入一个基于字符的 CNN，带本地卷积注意力层，以及一个带全局自注意力层的 BiGRU-CRF，用于中文命名实体识别，不需要词嵌入或外部词典，在多个领域实现了最新的效果。

ABSTRACT

Named entity recognition (NER) in Chinese is essential but difficult because of the lack of natural delimiters. Therefore, Chinese Word Segmentation (CWS) is usually considered as the first step for Chinese NER. However, models based on word-level embeddings and lexicon features often suffer from segmentation errors and out-of-vocabulary (OOV) words. In this paper, we investigate a Convolutional Attention Network called CAN for Chinese NER, which consists of a character-based convolutional neural network (CNN) with local-attention layer and a gated recurrent unit (GRU) with global self-attention layer to capture the information from adjacent characters and sentence contexts. Also, compared to other models, not depending on any external resources like lexicons and employing small size of char embeddings make our model more practical. Extensive experimental results show that our approach outperforms state-of-the-art methods without word embedding and external lexicon resources on different domain datasets including Weibo, MSRA and Chinese Resume NER dataset.

研究动机与目标

在不依赖分词、词嵌入或词典的前提下，推动鲁棒的中文命名实体识别。
发展一个字符级模型，能够捕捉局部上下文和长程依赖。
整合卷积注意力机制，以增强局部字符之间的关系。
引入全局自注意力层以建模句子级上下文。
在跨领域场景中展示在无外部资源情况下的有效性。

提出的方法

以 BiGRU-CRF 作为主序列标注框架。
添加卷积注意力层，在一个窗口内对每个字符周围的局部上下文信息进行编码。
将分词信息（BMES）与字符嵌入拼接，作为 CNN 的输入。
在每个窗口内计算局部注意力权重，以形成隐藏表示。
在 BiGRU 输出之上应用全局自注意力层，以捕捉长程依赖。
在拼接后的 BiGRU 与全局注意力输出之上再接一个 CRF 层进行解码。

实验结果

研究问题

RQ1一个全字符型模型在不依赖词嵌入或词典的前提下，是否能在跨多个领域达到具有竞争力的 NER 性能？
RQ2相较于标准 CNN，局部卷积注意力机制是否能更好地建模附近字符之间的交互？
RQ3全局自注意力层是否能有效捕捉长程句子依赖，以提升中文 NER 的性能？
RQ4在 Weibo、MSRA、Chinese Resume 和 OntoNotes 数据集上，在没有外部资源的情况下，所提出的 CAN-NER 相对于最新模型的表现如何？

主要发现

CAN-NER 在多份数据集上超越基线，在字符级模型中达到最新的结果。
卷积注意力通过更好地捕捉局部字符关系，相对标准 CNN 特征带来显著改进。
在 BiGRU 输出上的全局自注意力有助于建模超越普通 BiGRU-CRF 能力的长程句子上下文，从而提高 F1 分数。
该模型在没有外部词嵌入或词典资源的情况下运行，提供了更实用的 NER 方案。
结果在 Weibo 和 Chinese Resume 数据集上显示出强劲的表现，在 MSRA 和 OntoNotes 数据集上也具有竞争力的结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。