QUICK REVIEW

[论文解读] Evaluating Contextualized Embeddings on 54 Languages in POS Tagging, Lemmatization and Dependency Parsing

Milan Straka, Jana Straková|arXiv (Cornell University)|Aug 20, 2019

Natural Language Processing Techniques参考文献 14被引用 38

一句话总结

本工作在54种语言（89个UD 2.3语料库）上将BERT、Flair和ELMo上下文嵌入作为UDPipes 2.0的输入进行比较，达到最新研究水平并详细说明嵌入如何补充传统的词汇和字符特征。

ABSTRACT

We present an extensive evaluation of three recently proposed methods for contextualized embeddings on 89 corpora in 54 languages of the Universal Dependencies 2.3 in three tasks: POS tagging, lemmatization, and dependency parsing. Employing the BERT, Flair and ELMo as pretrained embedding inputs in a strong baseline of UDPipe 2.0, one of the best-performing systems of the CoNLL 2018 Shared Task and an overall winner of the EPE 2018, we present a one-to-one comparison of the three contextualized word embedding methods, as well as a comparison with word2vec-like pretrained embeddings and with end-to-end character-level word embeddings. We report state-of-the-art results in all three tasks as compared to results on UD 2.2 in the CoNLL 2018 Shared Task.

研究动机与目标

评估三种上下文嵌入方法（BERT、Flair、ELMo）作为强大多语言解析系统的额外输入的有效性。
在54种语言的89个UD 2.3树库中，对三种嵌入方法进行逐一比较。
将上下文嵌入与传统的word2vec等嵌入以及端到端字符级词嵌入进行比较。
确定语言资源对性能的影响，并分析多语言BERT与语言特定BERT模型是否获得更好的性能。
报告相对于UD 2.2的最新结果，并记录在UD 2.3上的表现。

提出的方法

以UDPipe 2.0作为POS标注、词形还原和依存句法分析的强基线系统。
使用三种上下文表征（BERT、Flair、ELMo）对输入词进行嵌入，并对子词/最后一层的输出取平均以获得词级嵌入。
与FastText词嵌入（WE）和字符级词嵌入（CLE）基线进行比较。
在可用情况下，实验多语言和语言特定的BERT模型，以及Flair和ELMo。
在UD 2.3树库（89个语料、54种语言）上进行评估，并在存在多个树库时报告宏平均结果。

实验结果

研究问题

RQ1在多语言和多任务（POS标注、词形还原、依存句法分析）下，将BERT、Flair和ELMo上下文嵌入作为UDPipe 2.0的输入时，它们之间的比较如何？
RQ2上下文嵌入是否为词嵌入和字符级特征提供互补信息，且将它们结合起来如何影响性能？
RQ3多语言BERT模型是否几乎与语言特定模型同样有效，按语言和数据可用性绩效有何差异？
RQ4在UD 2.3中，上下文嵌入对UPOS、XPOS、形态特征、词形、UAS、LAS、MLAS和BLEX的相对影响如何？
RQ5在UD 2.3任务中实现最先进结果的最佳配置（嵌入组合）是什么？

主要发现

将上下文嵌入作为输入加入UDPipe 2.0在多语言和多任务上均带来显著的性能提升。
BERT嵌入提供最大的改进，在UD Shared Task风格的评估中达到最新结果，并提供了对WE和CLE最具互补性的信息。
Flair嵌入捕捉形态和正字信息，在POS标注和词形还原上表现良好，但在依存句法分析方面相对于BERT较弱。
ELMo嵌入（仅英语）在英语树库上表现强劲，尤其是形态学方面，但总体在解析方面通常落后于BERT；将ELMo与WE/CLE结合在某些指标上仍然有利。
将WE+CLE+BERT（以及可用时的Flair）结合起来可获得最佳整体结果，相对误差降低显著，UPOS最高可达16.9%、解析方面达14.5%，其他指标提升较小；多语言BERT通常能匹配语言特定BERT的表现，尤其是英语，并受益于更大的预训练数据。
在UD 2.3上，BERT+Flair+WE+CLE在多种设置中取得最强结果，且存在语言特定的细微差异：某些未在BERT训练中的语言仍可从多语言BERT获益。
在89个UD 2.3树库中，平均效果在UPOS、UAS和LAS方面显示显著提升，而词形还原的结果则因语言和嵌入的使用而呈现混合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。