QUICK REVIEW

[论文解读] 75 Languages, 1 Model: Parsing Universal Dependencies Universally

Dan Kondratyuk, Milan Straka|arXiv (Cornell University)|Apr 3, 2019

Natural Language Processing Techniques参考文献 38被引用 23

一句话总结

UDify 是一个在 75 种语言的 124 个 Universal Dependencies 树库的统一数据集上微调的多语言、多任务 Transformer 模型。通过利用具有任务特定层注意力机制和强正则化的多语言 BERT 编码器，它在所有语言的 UPOS、UFeats、词形还原、UAS 和 LAS 上均实现了最先进或具有竞争力的性能，尤其在低资源语言上取得了显著提升，并在未见过的语言上表现出强大的零样本泛化能力。

ABSTRACT

We present UDify, a multilingual multi-task model capable of accurately predicting universal part-of-speech, morphological features, lemmas, and dependency trees simultaneously for all 124 Universal Dependencies treebanks across 75 languages. By leveraging a multilingual BERT self-attention model pretrained on 104 languages, we found that fine-tuning it on all datasets concatenated together with simple softmax classifiers for each UD task can result in state-of-the-art UPOS, UFeats, Lemmas, UAS, and LAS scores, without requiring any recurrent or language-specific components. We evaluate UDify for multilingual learning, showing that low-resource languages benefit the most from cross-linguistic annotations. We also evaluate for zero-shot learning, with results suggesting that multilingual training provides strong UD predictions even for languages that neither UDify nor BERT have ever been trained on. Code for UDify is available at https://github.com/hyperparticle/udify.

研究动机与目标

开发一个统一的多语言模型，能够联合预测 75 种语言的通用词性、词形特征、词形还原和依存句法树。
评估将所有 UD 树库连接在一起进行训练是否能提升性能，特别是对低资源语言。
评估模型在未见过的语言上的零样本泛化能力，利用多语言预训练实现跨语言迁移。
探究多语言 BERT 中的自注意力机制是否能捕捉可泛化到多种语言的句法模式。
通过展示一个在所有语言上均表现强劲的单一模型解决方案，减少对每种语言单独训练模型的需求。

提出的方法

在所有 124 个 UD 树库连接而成的数据集上微调一个多语言 BERT base 模型（支持 104 种语言），所有语言共享上下文嵌入。
应用任务特定的逐层注意力机制，为每个 UD 标注任务提取语言无关的句法表示。
在 BERT 的上下文化标记表示之上，为每个任务（UPOS、UFeats、Lemmas、Deps）使用简单的 softmax 分类器。
实施强正则化：输入掩码、增加 dropout、权重冻结、判别性微调和层 dropout，以防止过拟合。
在完整的多语言数据集上端到端训练整个模型，以实现在所有 UD 标注类型上的多任务学习。
在无训练数据的树库上评估零样本性能，评估模型对未见过语言的泛化能力。

实验结果

研究问题

RQ1一个单一的多语言 Transformer 模型是否能在 75 种语言的所有主要 UD 标注任务上实现最先进性能？
RQ2在所有 UD 树库上联合训练是否能提升性能，特别是对低资源语言？
RQ3模型在训练中未见过的语言上的泛化能力有多强（零样本学习）？
RQ4使用 BERT 进行多语言预训练在捕捉跨语言句法泛化方面对依存句法分析的有效性如何？
RQ5与在 BERT 嵌入上使用标准分类头相比，任务特定的层注意力是否能提升性能？

主要发现

UDify 在 75 种语言的 UPOS、UFeats、词形还原、UAS 和 LAS 上均实现了最先进或具有竞争力的结果，尤其在 UAS 和 LAS 上提升显著。
低资源语言从多语言训练中获益最多，相比单语言基线模型，性能显著提升。
模型能有效泛化到零样本语言，在未进行任何微调的情况下也能生成高质量预测。
强正则化（包括层 dropout 和权重冻结）在大型多语言数据集上微调时对防止过拟合至关重要。
多语言 BERT 中的自注意力机制捕捉到了可泛化到多种语言的句法模式，从而实现了有效的跨语言迁移。
在多语言 UDify 模型的 BERT 权重上进行单语言微调，能进一步提升单个语言的性能，表明所学表示具有可迁移性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。