[论文解读] Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
一个基于字符的完全 BiRNN-CRF 模型用于联合中文分词和词性标注,使用连接的 n-gram 字符表示、子字符特征(部首和 CNN 派生的正字特征)以及预训练嵌入;在 CTB5 上达到最先进的结果,并在 CTB9 与 UD Chinese 上表现出稳健的性能。
We present a character-based model for joint segmentation and POS tagging for Chinese. The bidirectional RNN-CRF architecture for general sequence tagging is adapted and applied with novel vector representations of Chinese characters that capture rich contextual information and lower-than-character level features. The proposed model is extensively evaluated and compared with a state-of-the-art tagger respectively on CTB5, CTB9 and UD Chinese. The experimental results indicate that our model is accurate and robust across datasets in different sizes, genres and annotation schemes. We obtain state-of-the-art performance on CTB5, achieving 94.38 F1-score for joint segmentation and POS tagging.
研究动机与目标
- 展示一个用于中文联合分词和词性标注的完全基于字符的 BiRNN-CRF 模型。
- 开发并评估能够捕捉丰富上下文和子字符信息的新的字符表示。
- 评估在不同规模、体裁和注释方案的数据集上的鲁棒性。
- 与最先进的 ZPar 系统进行对比并分析 OOV 词处理。
- 提供开源实现和预训练的字符嵌入。
提出的方法
- 将 BiRNN-CRF 标注框架改造为在中文字符上进行联合分词和词性标注。
- 用连接的 n-gram 向量表示中文字符,以捕捉局部上下文信息。
- 通过部首(基于查找)和 CNN 派生的正字特征来融入子字符信息。
- 可选地使用预训练的字符嵌入(GloVe)来替代上下文无关向量。
- 通过对四个独立训练的模型的得分进行平均实现集成解码。
- 使用 Adagrad 训练,并在第一阶 CRF 层上应用 dropout、分桶训练和 Viterbi 解码。
实验结果
研究问题
- RQ1一个完全基于字符的 BiRNN-CRF 模型是否可以在中文实现最先进的联合分词和词性标注?
- RQ2连接的 n-gram 字符表示是否比标准字符嵌入在分词和标注上有提升?
- RQ3子字符信息(部首和 CNN 派生特征)对性能的影响如何?
- RQ4在不同数据集规模和注释方案下,预训练字符嵌入对结果的影响如何?
- RQ5集成解码是否有利于处理 OOV 词和整体鲁棒性?
主要发现
- 该模型在 CTB5 上实现了最先进的联合分词与词性标注(Seg&Tag 的 F1=94.38,采用集成)。
- 连接的 3-gram 表征相较于基础字符嵌入显著提升性能,而 4-gram 和 5-gram 的增益依数据集而定,在较小数据集上往往边际或有害。
- 部首和图形(CNN 派生)特征在某些数据集上带来增益(尤其 CTB5 的 POS 标注受益于部首;图形特征提升 UD1,但计算成本更高)。
- 预训练的字符嵌入提升了在较小数据集(如 UD Chinese)上的性能,但当使用 3-gram 和部首时增益可能减小。
- 对四个独立训练模型的集成在各数据集上都带来稳定的改进,并且对 OOV 词处理有益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。