QUICK REVIEW

[论文解读] Chinese NER Using Lattice LSTM

Yue Zhang, Jie Yang|arXiv (Cornell University)|May 5, 2018

Topic Modeling参考文献 45被引用 33

一句话总结

本文提出一种用于中文命名实体识别（NER）的网格结构LSTM-CRF模型，通过联合编码来自大规模词典的所有可能词语和字符，避免分词错误，同时利用字符与词级信息。该模型通过门控循环单元动态路由相关词与字符路径，在多个数据集上实现了最先进性能，优于基于字符和基于词的基线模型。

ABSTRACT

We investigate a lattice-structured LSTM model for Chinese NER, which encodes a sequence of input characters as well as all potential words that match a lexicon. Compared with character-based methods, our model explicitly leverages word and word sequence information. Compared with word-based methods, lattice LSTM does not suffer from segmentation errors. Gated recurrent cells allow our model to choose the most relevant characters and words from a sentence for better NER results. Experiments on various datasets show that lattice LSTM outperforms both word-based and character-based LSTM baselines, achieving the best results.

研究动机与目标

解决基于词和基于字符的方法在中文NER中的局限性，特别是分词错误传播问题。
利用显式的词与词序列信息，提升上下文中的命名实体消歧能力。
开发一种神经网络模型，将词典提取的词语整合到序列标注中，无需依赖预分词文本。
证明网格结构LSTM能够有效平衡字符级与词级表征，从而提升NER性能。
展示该模型对句长具有鲁棒性，并在多样领域与数据集上优于现有基线模型。

提出的方法

通过将输入句子与大规模自动提取的词典匹配，构建词-字符网格，以包含所有可能的词边界。
使用带有门控循环单元的网格结构LSTM，动态选择并路由来自多条路径（字符序列与词序列）的相关信息通过网络。
将网格LSTM与CRF层结合，实现对命名实体边界与类型的联合序列标注。
在NER数据上端到端训练模型，使其学习哪些词与字符序列对实体识别最具信息量。
利用来自大规模自动分词语料库的预训练词嵌入，丰富词典并提升表征学习效果。
将模型应用于短句与长句，评估其对句长增加与复杂度提升的鲁棒性。

实验结果

研究问题

RQ1网格结构LSTM模型是否能在不依赖预分词文本的前提下，有效整合中文NER中的词级与字符级表征？
RQ2在不同句长与领域下，该网格LSTM模型与基于字符和基于词的基线模型相比，NER性能如何？
RQ3该模型从词典中动态选择相关词语的能力，在多大程度上提升了命名实体的消歧能力？
RQ4与基于流水线分词的NER系统相比，该网格结构是否能减轻分词错误传播问题？
RQ5当词典中包含噪声或无关词语时，该模型表现如何？其能否在训练过程中学会忽略这些词语？

主要发现

在所有评估数据集（包括OntoNotes、MSRA、Weibo和简历数据）上，网格LSTM模型显著优于基于字符和基于词的LSTM-CRF基线模型。
在OntoNotes测试集上，该模型相比最佳字符基线模型实现了7.34%的错误率降低，展现出在复杂、开放领域设置下的强大性能。
在MSRA数据集上，该模型相比字符基线模型实现了16.11%的错误率降低，凸显其在领域特定NER任务中的有效性。
与word+char+bichar及char+bichar+softword基线相比，该模型对句长增加表现出更强的鲁棒性，表明其对长距离依赖与词组合复杂性的处理能力更优。
在案例研究中，该模型正确识别出'东莞台协'（东莞台协）为组织名称，而word+char+bichar与char+bichar+softword模型因分词错误或不合语法的输出而失败。
模型性能与词典中匹配命名实体的比例相关，表明高质量词典可提升性能，但该模型仍能在训练中学会过滤噪声词语。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。