[论文解读] Adversarial Multi-Criteria Learning for Chinese Word Segmentation
本文通过在八个具有不同分词标准的语料库上联合训练,提出了一种对抗性多准则学习方法用于中文分词(CWS),采用共享-私有深度神经网络架构。通过对抗性训练强制共享层学习与准则无关的特征,该模型在所有数据集上均显著提升了F1分数,表明来自异构语料库的共享知识可有效提升CWS性能,尤其在简体中文与繁体中文之间迁移时效果显著。
Different linguistic perspectives causes many diverse segmentation criteria for Chinese word segmentation (CWS). Most existing methods focus on improve the performance for each single criterion. However, it is interesting to exploit these different criteria and mining their common underlying knowledge. In this paper, we propose adversarial multi-criteria learning for CWS by integrating shared knowledge from multiple heterogeneous segmentation criteria. Experiments on eight corpora with heterogeneous segmentation criteria show that the performance of each corpus obtains a significant improvement, compared to single-criterion learning. Source codes of this paper are available on Github.
研究动机与目标
- 为解决中文NLP语料库中分词标准不一致的问题,该问题限制了数据复用与模型泛化能力。
- 探究在异构分词标准之间是否存在共享的底层语言知识,并可被利用以提升CWS性能。
- 开发一种深度学习框架,有效整合多种分词标准,且无需依赖手工特征或浅层结构。
- 研究基于共享表征在简体中文与繁体中文语料库之间的跨语言迁移能力。
- 证明对抗性训练可在多准则CWS设置中有效提取准则不变特征。
提出的方法
- 模型采用共享-私有架构,在多任务学习框架中,共享层捕捉准则无关特征,私有层学习准则特定表征。
- 使用Bi-LSTM网络作为特征提取器,以建模字符级输入中的序列依赖关系。
- 对共享层应用对抗性训练:训练一个判别器以区分来自不同准则的特征,同时训练共享编码器以欺骗判别器,从而促进不变特征的学习。
- 引入新的目标函数,结合交叉熵损失与对抗损失,联合优化分词准确率与特征不变性。
- 在八个具有不同分词标准的语料库上进行训练,涵盖简体与繁体中文文本。
- 通过先在简体中文语料库上预训练,再在繁体中文语料库上微调(冻结共享权重)的方式评估迁移学习。
实验结果
研究问题
- RQ1在多个异构分词标准之间共享特征是否能提升中文分词性能?
- RQ2在多准则CWS设置中,对抗性训练是否能有效提取准则不变特征?
- RQ3来自简体中文语料库的知识是否能提升在繁体中文CWS任务上的性能?
- RQ4在正式、新闻体语料库上进行训练是否能提升在非正式、微博文本上的性能?
- RQ5不同共享-私有模型架构在不同准则下的性能与泛化能力方面有何差异?
主要发现
- 所提出的对抗性多准则学习模型在所有八个语料库上相比单准则学习基线模型均实现了显著的F1分数提升。
- 平均而言,当从五个简体中文语料库向三个繁体中文语料库迁移知识时,模型F1分数提升0.41%。
- 在NLPCC 2016微博数据集上,当在八个正式语料库上预训练后,模型F1分数提升0.30%,OOV召回率提高3.97%。
- 对抗性训练策略成功促使共享层学习到与分词标准无关的特征,从而提升泛化能力。
- 共享-私有架构优于无私有层的简单模型,证实了分离共享表征与准则特定表征的优势。
- 结果表明,繁体中文CWS可显著受益于简体中文中学习到的知识,反之亦然,凸显了跨脚本迁移的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。