Skip to main content
QUICK REVIEW

[论文解读] How multilingual is Multilingual BERT?

Telmo Pires, Eva Schlinger|arXiv (Cornell University)|Jun 4, 2019
Natural Language Processing Techniques参考文献 16被引用 139
一句话总结

论文证明,训练于104种语言的多语言BERT(M-BERT)在零-shot跨语言迁移上表现出色,揭示了一个多语言表示,超越简单的词汇重叠,并且跨语言相似性和脚本导致迁移成功率存在差异。

ABSTRACT

In this paper, we show that Multilingual BERT (M-BERT), released by Devlin et al. (2018) as a single language model pre-trained from monolingual corpora in 104 languages, is surprisingly good at zero-shot cross-lingual model transfer, in which task-specific annotations in one language are used to fine-tune the model for evaluation in another language. To understand why, we present a large number of probing experiments, showing that transfer is possible even to languages in different scripts, that transfer works best between typologically similar languages, that monolingual corpora can train models for code-switching, and that the model can find translation pairs. From these results, we can conclude that M-BERT does create multilingual representations, but that these representations exhibit systematic deficiencies affecting certain language pairs.

研究动机与目标

  • 调查在没有显式跨语言训练的情况下,M-BERT在不同语言上的泛化能力有多强。
  • 检查跨语言迁移是依赖词汇(词汇表)重叠,还是依赖更深层的多语言表示。
  • 分析在不同脚本和代码混合场景下的迁移。
  • 探查语言类型学相似性对跨语言泛化的影响。
  • 描述M-BERT多语言特征空间的结构。

提出的方法

  • 使用在104种语言上预训练、具有共享词片词汇的M-BERT。
  • 在一种语言的任务数据上进行微调,并在其他语言上进行零-shot评估,以执行NER和POS标注。
  • 将零-shot性能与以英语为中心的模型进行比较,以评估对词汇重叠的依赖程度。
  • 改变语言脚本和类型特征,以研究跨脚本与跨语言的迁移。
  • 进行探测分析,以映射M-BERT跨语言的多语言特征空间的几何结构。

实验结果

研究问题

  • RQ1M-BERT是否能够在具有不同脚本的语言之间实现零-shot跨语言迁移?
  • RQ2词汇重叠在多大程度上驱动跨语言迁移,M-BERT能否超越词汇记忆进行迁移?
  • RQ3语言类型学相似性如何影响零-shot迁移性能?
  • RQ4在没有多语言预训练的情况下,M-BERT能否对代码混合和音译文本进行泛化?
  • RQ5M-BERT的跨语言表示空间在各语言中的结构是什么?

主要发现

Fine-tuning languageEval languageendenles
enen90.70---
ende-69.74--
ennl--77.36-
enes---73.59
deen-73.83--
dede-82.00--
denl--76.25-
dees---70.03
nlen----
nlde--65.68-
nlnl--89.86-
nles---72.10
esen----
esde---59.40
esnl---64.39
eses---87.18
  • M-BERT在跨语言对中实现了强劲的零-shot NER和POS表现,即使涉及不同脚本的语言。
  • 零-shot NER迁移在很大程度上与词片重叠无关,表明存在超越词汇记忆的多语言表示。
  • POS迁移在欧洲语言对中显示出很高的准确性(在很多情形>80%),且随脚本和类型学而异。
  • 跨脚本的迁移是可能的(例如从乌尔都语到印地语),但并不统一;类型学相似性提高迁移性能。
  • 代码混合和音译带来挑战;在没有音译感知训练的情况下,音译迁移较弱。
  • 探测表明,在M-BERT的较低层存在一个语言无关的子空间,语言特定信号在较高层出现。
  • 作者得出结论:M-BERT学习了多语言表示,但对某些语言对存在系统性缺陷,表明可能需要明确的多语言训练目标以提高跨语言泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。