[论文解读] Chinese Lexical Analysis with Deep Bi-GRU-CRF Network
本文提出一个深层堆叠的 Bi-GRU-CRF 模型,能够联合进行中文分词、词性标注和命名实体识别,基于伪标注和少量人工标注语料训练,相较于之前的在线系统,达到类似最新的准确性且推理更快。
Lexical analysis is believed to be a crucial step towards natural language understanding and has been widely studied. Recent years, end-to-end lexical analysis models with recurrent neural networks have gained increasing attention. In this report, we introduce a deep Bi-GRU-CRF network that jointly models word segmentation, part-of-speech tagging and named entity recognition tasks. We trained the model using several massive corpus pre-tagged by our best Chinese lexical analysis tool, together with a small, yet high-quality human annotated corpus. We conducted balanced sampling between different corpora to guarantee the influence of human annotations, and fine-tune the CRF decoding layer regularly during the training progress. As evaluated by linguistic experts, the model achieved a 95.5% accuracy on the test set, roughly 13% relative error reduction over our (previously) best Chinese lexical analysis tool. The model is computationally efficient, achieving the speed of 2.3K characters per second with one thread.
研究动机与目标
- 提出统一的端到端中文词汇分析方法,以减少管道中的错误传播和集成复杂性。
- 开发一个能够联合学习分词、词性标注和命名实体识别的深层 Bi-GRU-CRF 模型。
- 利用大规模伪标注语料与少量人工标注语料来训练和正则化模型。
- 在语言学专家的评估下评估准确性,并与现有的百度在线系统进行比较。
- 展示在速度和内存占用方面的高效性,适合部署。
提出的方法
- 使用两层堆叠的Bi-GRU来对字符序列进行编码,而不依赖手工特征。
- 在解码端附加一个 CRF 层,使用 IOB2 风格标签共同解码标签序列。
- 在伪标注与人工标注数据的混合集语料上以最大条件似然进行训练;对人工标注语料进行过采样。
- 在训练过程中使用来自人工语料的带标签转移对 CRF 解码层进行微调。
- 在解码时施加 IOB2 信息化的硬约束,以强制有效的标签序列。
实验结果
研究问题
- RQ1一个深层 Bi-GRU-CRF 模型能否联合执行中文分词、词性标注和命名实体识别并达到有竞争力的准确性?
- RQ2联合模型在准确性和效率方面与先前的百度在线系统相比有何差异?
- RQ3加入少量人工标注语料是否提升解码转移与整体性能?
- RQ4模型在内存效率和实时或近实时大规模处理方面是否足够快速?
主要发现
| 模型 | Acc | Precision | Recall | F1-Score |
|---|---|---|---|---|
| 在线系统 | 0.948 | |||
| Bi-GRU-CRF | 0.955 | 0.903 | 0.854 | 0.878 |
- Bi-GRU-CRF 模型在测试集上达到 95.5% 的准确率,比之前的在线系统高出约 0.7%。
- 在命名实体识别方面,模型达到精确度 0.903、召回率 0.854、F1 值 0.878,在各指标上接近或优于在线系统。
- 端到端模型以每秒 2.3K 字符的处理速度运行,内存占用低于 100 MB。
- 与在线系统相比,在给定基准上,Bi-GRU-CRF 的处理速度快 57%。
- 训练使用大型伪标注语料加少量人工标注语料来正则化学习并改善转移概率。
- 该方法生成紧凑的单模型解决方案,降低了对复杂多模型集成的需求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。