Skip to main content
QUICK REVIEW

[论文解读] Graph Convolutional Networks for Named Entity Recognition

Alberto Cetoli, Stefano Bragaglia|arXiv (Cornell University)|Sep 28, 2017
Topic Modeling参考文献 18被引用 37
一句话总结

本文提出了一种与双向图卷积网络(GCN)集成的双向长短期记忆网络(Bi-LSTM),用于命名实体识别(NER),通过利用依存树结构提升性能。通过使用独立的前向和后向GCN层在有向图上传播句法信息,该模型相较于Bi-LSTM基线模型实现了4.6%的F1分数提升,表明句法结构显著提升了NER准确率,且无需大量特征工程。

ABSTRACT

In this paper we investigate the role of the dependency tree in a named entity recognizer upon using a set of GCN. We perform a comparison among different NER architectures and show that the grammar of a sentence positively influences the results. Experiments on the ontonotes dataset demonstrate consistent performance improvements, without requiring heavy feature engineering nor additional language-specific knowledge.

研究动机与目标

  • 探究句法结构(特别是依存树)对命名实体识别(NER)性能的影响。
  • 设计并评估一种新型双向GCN架构,用于处理NER任务中的有向依存图。
  • 评估图模型是否能在标准序列模型(如Bi-LSTM)之外提升NER性能。
  • 评估在与GCN结合时,词性(PoS)标签和形态特征的贡献。
  • 证明GCN可以有效与现有NER架构结合,而无需进行大量特征工程。

提出的方法

  • 该模型采用双向GCN架构,通过分别沿传入和传出边传播信息,使用两个独立的GCN层处理依存树。
  • 每个GCN层应用ReLU激活的邻近节点嵌入聚合,其公式定义为:$\overleftarrow{h}_{v}^{k+1} = \mathrm{ReLU}\left(\sum_{u\in\mathcal{\overleftarrow{N}}(v)} \left(\overleftarrow{W}^{k}h_{u}^{k} + \overleftarrow{b}^{k}\right)\right)$ 和 $\overrightarrow{h}_{v}^{k+1} = \mathrm{ReLU}\left(\sum_{u\in\mathcal{\overrightarrow{N}}(v)} \left(\overrightarrow{W}^{k}h_{u}^{k} + \overrightarrow{b}^{k}\right)\right)$。
  • 最终的节点表示通过拼接前向和后向GCN层的输出形成:$h_{v}^{N} = \overrightarrow{h}_{v}^{N} \oplus \overleftarrow{h}_{v}^{N}$。
  • GCN堆叠在Bi-LSTM编码器之上,词嵌入和词性标签作为输入特征输入。
  • 使用条件随机场(CRF)层作为最终层,以确保序列级别的标签一致性。
  • 模型在OntoNotes 5.0数据集上进行训练,使用真实标签和预测的词性标签,并包含截断至12个字符的形态特征。

实验结果

研究问题

  • RQ1通过GCN引入依存树结构是否能提升NER性能,相较于标准的Bi-LSTM模型?
  • RQ2使用词性(PoS)标签(真实或预测)如何影响基于GCN的NER系统的性能?
  • RQ3当与图卷积层结合时,形态特征在多大程度上对NER有贡献?
  • RQ4双向GCN架构是否能有效建模NLP任务(如NER)中的有向句法图?
  • RQ5在F1分数和对特征来源的鲁棒性方面,基于GCN的方法与当前最先进的NER系统相比如何?

主要发现

  • 当使用真实词性标签时,GCN增强模型相比Bi-LSTM基线模型(81.7 ± 0.4)实现了4.6%的绝对F1分数提升(86.3 ± 0.3)。
  • 当使用推断的词性标签时,F1分数提升了3.2%,表明对句法解析错误具有鲁棒性。
  • 使用220万词的GloVe词向量而非100万词向量,F1分数提升了0.7%,表明更大的词向量带来适度但可观的增益。
  • 添加形态特征(截断至12个字符)相比基线使F1分数提升了2.2%,表明其与GCN处理兼容。
  • 表现最佳的配置(Bi-LSTM + GCN + 真实词性标签 + 形态特征)实现了84.6 ± 0.4的F1分数,比Chiu和Nichols(2015)模型高出1.7%。
  • 结果证实,句法结构(尤其是依存树)在提升NER性能方面起着重要作用,验证了GCN在捕捉非局部语言依赖关系方面的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。