Skip to main content
QUICK REVIEW

[论文解读] Chinese NER Using Lattice LSTM

Yue Zhang, Jie Yang|arXiv (Cornell University)|May 5, 2018
Topic Modeling参考文献 45被引用 33
一句话总结

本文提出一种用于中文命名实体识别(NER)的网格结构LSTM-CRF模型,通过联合编码来自大规模词典的所有可能词语和字符,避免分词错误,同时利用字符与词级信息。该模型通过门控循环单元动态路由相关词与字符路径,在多个数据集上实现了最先进性能,优于基于字符和基于词的基线模型。

ABSTRACT

We investigate a lattice-structured LSTM model for Chinese NER, which encodes a sequence of input characters as well as all potential words that match a lexicon. Compared with character-based methods, our model explicitly leverages word and word sequence information. Compared with word-based methods, lattice LSTM does not suffer from segmentation errors. Gated recurrent cells allow our model to choose the most relevant characters and words from a sentence for better NER results. Experiments on various datasets show that lattice LSTM outperforms both word-based and character-based LSTM baselines, achieving the best results.

研究动机与目标

  • 解决基于词和基于字符的方法在中文NER中的局限性,特别是分词错误传播问题。
  • 利用显式的词与词序列信息,提升上下文中的命名实体消歧能力。
  • 开发一种神经网络模型,将词典提取的词语整合到序列标注中,无需依赖预分词文本。
  • 证明网格结构LSTM能够有效平衡字符级与词级表征,从而提升NER性能。
  • 展示该模型对句长具有鲁棒性,并在多样领域与数据集上优于现有基线模型。

提出的方法

  • 通过将输入句子与大规模自动提取的词典匹配,构建词-字符网格,以包含所有可能的词边界。
  • 使用带有门控循环单元的网格结构LSTM,动态选择并路由来自多条路径(字符序列与词序列)的相关信息通过网络。
  • 将网格LSTM与CRF层结合,实现对命名实体边界与类型的联合序列标注。
  • 在NER数据上端到端训练模型,使其学习哪些词与字符序列对实体识别最具信息量。
  • 利用来自大规模自动分词语料库的预训练词嵌入,丰富词典并提升表征学习效果。
  • 将模型应用于短句与长句,评估其对句长增加与复杂度提升的鲁棒性。

实验结果

研究问题

  • RQ1网格结构LSTM模型是否能在不依赖预分词文本的前提下,有效整合中文NER中的词级与字符级表征?
  • RQ2在不同句长与领域下,该网格LSTM模型与基于字符和基于词的基线模型相比,NER性能如何?
  • RQ3该模型从词典中动态选择相关词语的能力,在多大程度上提升了命名实体的消歧能力?
  • RQ4与基于流水线分词的NER系统相比,该网格结构是否能减轻分词错误传播问题?
  • RQ5当词典中包含噪声或无关词语时,该模型表现如何?其能否在训练过程中学会忽略这些词语?

主要发现

  • 在所有评估数据集(包括OntoNotes、MSRA、Weibo和简历数据)上,网格LSTM模型显著优于基于字符和基于词的LSTM-CRF基线模型。
  • 在OntoNotes测试集上,该模型相比最佳字符基线模型实现了7.34%的错误率降低,展现出在复杂、开放领域设置下的强大性能。
  • 在MSRA数据集上,该模型相比字符基线模型实现了16.11%的错误率降低,凸显其在领域特定NER任务中的有效性。
  • 与word+char+bichar及char+bichar+softword基线相比,该模型对句长增加表现出更强的鲁棒性,表明其对长距离依赖与词组合复杂性的处理能力更优。
  • 在案例研究中,该模型正确识别出'东莞台协'(东莞台协)为组织名称,而word+char+bichar与char+bichar+softword模型因分词错误或不合语法的输出而失败。
  • 模型性能与词典中匹配命名实体的比例相关,表明高质量词典可提升性能,但该模型仍能在训练中学会过滤噪声词语。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。