Skip to main content
QUICK REVIEW

[论文解读] Multi-Task Cross-Lingual Sequence Tagging from Scratch

Zhilin Yang, Ruslan Salakhutdinov|arXiv (Cornell University)|Mar 20, 2016
Natural Language Processing Techniques参考文献 33被引用 197
一句话总结

本论文提出一种带有 CRF 层的深度层级 GRU,用于序列标注,实现跨任务和跨语言的联合训练,无需特征工程,在英语、荷兰语和西班牙语的 NER、英语 POS 标注和分块(chunking)任务上达到最先进结果。

ABSTRACT

We present a deep hierarchical recurrent neural network for sequence tagging. Given a sequence of words, our model employs deep gated recurrent units on both character and word levels to encode morphology and context information, and applies a conditional random field layer to predict the tags. Our model is task independent, language independent, and feature engineering free. We further extend our model to multi-task and cross-lingual joint training by sharing the architecture and parameters. Our model achieves state-of-the-art results in multiple languages on several benchmark tasks including POS tagging, chunking, and NER. We also demonstrate that multi-task and cross-lingual joint training can improve the performance in various cases.

研究动机与目标

  • 提出一个任务无关、语言无关的序列标注模型,避免特征工程。
  • 研究在同一语言内的多任务训练以及跨语言的跨语言训练。
  • 在多样的任务(POS、chunking、NER)和语言(英语、荷兰语、西班牙语)上证明有效性。
  • 展示共享架构和参数能够在没有并行语料的情况下提升性能。

提出的方法

  • 在字符和单词层面使用深度层级门控循环单元(GRU)来编码形态和上下文。
  • 在字符层和单词层都应用双向多层 GRU,以在没有手工特征的情况下学习表示。
  • 将词级表示与 CRF 层相结合,以预测具有一阶依赖的标记序列。
  • 用最大-margin 增强 CRF 目标进行训练,其中包含预测序列与真实序列之间的代价(Hamming 损失)。
  • 在任务(多任务)和语言(跨语言)之间共享网络架构和参数,以实现联合训练。
  • 在训练期间对预训练词向量进行微调(英语使用 SENNA;荷兰语/西班牙语使用 Polyglot)。

实验结果

研究问题

  • RQ1一个任务与语言无关的神经序列标注模型是否可以在 POS 标注、分块和 NER 上达到有竞争力甚至最先进的结果?
  • RQ2在同一语言内的多任务联合训练是否会提升相关标注任务的性能?
  • RQ3利用跨语言的形态学相似性进行跨语言联合训练是否在没有并行语料的多语言环境中提升性能?
  • RQ4字符级形态学与词级语义在整体模型性能中的贡献分别是什么?

主要发现

  • 在 CoNLL 2000 English chunking 上取得最先进结果(95.41% 与联合训练)。
  • 在 CoNLL 2002 Dutch NER 上取得最先进结果(85.19% 与联合训练)。
  • 在 CoNLL 2002 Spanish NER 上取得最先进结果(85.77% 与联合训练)。
  • 在 CoNLL 2003 English NER 上取得最先进结果(91.20% 与 gazetteer features)。
  • 在 Penn Treebank POS 标注上取得强劲的结果(97.55% 精度;文献中第二佳)。
  • 联合训练的改进包括 Span NER +1.08 和 English chunking +0.75,且根据标注率的不同有不同的收益;跨语言联合训练显示形态共享的好处(例如国家名形态可视化)。
  • 词嵌入和字符级 GRU 均对性能有贡献,词嵌入带来更大收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。