QUICK REVIEW

[论文解读] Neural Word Segmentation Learning for Chinese

Deng Cai, Hai Zhao|arXiv (Cornell University)|Jun 14, 2016

Natural Language Processing Techniques参考文献 46被引用 32

一句话总结

本文提出了一种新颖的神经网络框架用于中文分词，该框架直接建模分词历史，并通过字符级表征和基于LSTM的打分模型消除了固定上下文窗口的限制。在无需人工设计特征的情况下，该模型通过端到端训练联合学习词表示与句子级一致性，在基准数据集上实现了最先进或具有竞争力的性能。

ABSTRACT

Most previous approaches to Chinese word segmentation formalize this problem as a character-based sequence labeling task where only contextual information within fixed sized local windows and simple interactions between adjacent tags can be captured. In this paper, we propose a novel neural framework which thoroughly eliminates context windows and can utilize complete segmentation history. Our model employs a gated combination neural network over characters to produce distributed representations of word candidates, which are then given to a long short-term memory (LSTM) language scoring model. Experiments on the benchmark datasets show that without the help of feature engineering as most existing approaches, our models achieve competitive or better performances with previous state-of-the-art methods.

研究动机与目标

解决现有序列标注方法在中文分词中因固定大小上下文窗口和不完整标记历史带来的局限性。
通过直接从字符序列学习分布式表征，消除对手工设计特征的依赖。
将分词形式化为直接的结构化学习任务，评估完整的分词历史与句子一致性。
通过字符级表征和基于LSTM的句子打分模型建模词出现概率，以提升分词准确性。

提出的方法

该模型通过在每个候选词的字符嵌入上应用门控组合网络，生成分布式词表征。
它使用LSTM网络编码先前已分词的词的历史，以捕捉长距离依赖关系和句子级一致性。
打分函数通过累加在完整分词历史条件下各个词候选的得分，评估分词句子的可能性。
该框架通过动态规划进行解码，以寻找最高得分的分词序列，且不依赖于局部上下文窗口。
词表征通过预训练的字符嵌入进行初始化，从而在低资源和罕见词情况下提升性能。
整个系统通过随机梯度下降进行端到端训练，以分词任务的F1分数为优化目标。

实验结果

研究问题

RQ1基于神经网络的中文分词模型是否能在不依赖人工设计特征或固定上下文窗口的情况下实现具有竞争力的性能？
RQ2与仅依赖前一个标签的标准序列标注方法相比，建模完整分词历史在性能上有多大提升？
RQ3从字符嵌入中衍生出的词级表征在多大程度上能提升分词准确性？
RQ4一种联合建模词候选与句子一致性的端到端学习框架是否能超越先前的最先进系统？

主要发现

所提出的模型在PKU数据集上实现了最先进F1分数，且未使用任何人工设计特征，优于以往基于神经网络的方法。
在MSR数据集上，该模型表现出具有竞争力的性能，当解码时允许最多6个字符的词时，F1分数提升了0.3%。
该模型在解码过程中最大词长越长，性能提升越明显，表明捕捉长词能增强分词准确性。
该框架计算效率高，仅需不到800MB内存，在单个CPU上训练约两天（50个周期）即可完成。
使用预训练字符嵌入可进一步提升性能，证明了在低资源场景下迁移学习的价值。
消融实验证实，包含完整历史建模的完整模型显著优于仅使用有限上下文或无历史编码的变体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。