Skip to main content
QUICK REVIEW

[论文解读] Towards Better UD Parsing: Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation

Wanxiang Che, Yijia Liu|arXiv (Cornell University)|Jul 9, 2018
Natural Language Processing Techniques参考文献 19被引用 105
一句话总结

HIT-SCIR 系统通过引入 ELMo 上下文相关嵌入、采用集成解析器、以及拼接树库来提升多语言 UD 解析,在 CoNLL-2018 测试集上获得最高的 LAS。

ABSTRACT

This paper describes our system (HIT-SCIR) submitted to the CoNLL 2018 shared task on Multilingual Parsing from Raw Text to Universal Dependencies. We base our submission on Stanford's winning system for the CoNLL 2017 shared task and make two effective extensions: 1) incorporating deep contextualized word embeddings into both the part of speech tagger and parser; 2) ensembling parsers trained with different initialization. We also explore different ways of concatenating treebanks for further improvements. Experimental results on the development data show the effectiveness of our methods. In the final evaluation, our system was ranked first according to LAS (75.84%) and outperformed the other systems by a large margin.

研究动机与目标

  • 研究深度上下文单词嵌入(ELMo)如何影响 UD 解析中的 POS 标注与依存关系解析的准确性。
  • 探索不同初始化的集成解析对比的收益。
  • 检验树库拼接(跨领域与跨语言)对解析性能的影响。
  • 评估预处理改进(句子/令牌分割)对 UD 解析的影响。
  • 通过跨语言嵌入转移及相关技术解决低资源语言问题。

提出的方法

  • 将基于 ELMo 的上下文相关单词嵌入整合到 POS 标注器和依存解析器中。
  • 用不同初始化训练多种解析器并通过对 softmax 得分取平均来进行集成。
  • 从同一语言族或相关领域拼接选定的树库以提升解析,在验证基础上进行决策。
  • 使用跨语言词嵌入转移来处理低资源语言,将嵌入转换到一个共享空间。
  • 通过更先进的句子分割(Uppsala segmentor)和面向中文/日语/越南语的语言特定分词器(SCIR)来增强预处理。

实验结果

研究问题

  • RQ1将 ELMo 嵌入纳入对 UD 解析中的 POS 标注准确性和 LAS 的影响是什么?
  • RQ2解析器集成在不同语言和树库上是否能带来一致的提升?
  • RQ3树库拼接(跨域或跨语言)对 UD 解析性能有何影响,在何种条件下是有益的?
  • RQ4哪些预处理改进(句子分割、分词)对解析性能的影响最大?
  • RQ5跨语言嵌入转移如何帮助低资源语言的解析,以及其局限性是什么?

主要发现

  • 在标注器中使用 ELMo 的宏平均 UPOS 提升为 0.56%,在 LAS 方面提升为 0.84%。
  • 在解析器中使用 ELMo 的宏平均 LAS 提升为 0.84%,错误率降低 7.88%。
  • 解析器集成在平均 LAS 上带来 0.55% 的增益,且在较小的树库上由于更好的泛化而获得更大提升。
  • 跨域树库拼接有利于小树库语言,large-treebanks 进行拼接可能收益有限甚至负面。
  • 跨语言树库拼接收益有限,仅在英国英语等语言上见到改进,且表明需要更先进的转移方法。
  • 预处理改进,特别是分词和句子分割,显著提升解析性能,部分树库在 LAS 上获得大幅提升。
  • 最终提交在官方 CoNLL-2018 测试集上以平均 LAS 75.84 的成绩排名第一(含集成)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。