QUICK REVIEW

[论文解读] Emerging Cross-lingual Structure in Pretrained Language Models

Shijie Wu, Alexis Conneau|arXiv (Cornell University)|Nov 4, 2019

Topic Modeling参考文献 45被引用 26

一句话总结

本文表明，多语言掩码语言模型主要通过顶层Transformer层中的参数共享来学习跨语言表征，即使没有共享子词或领域相似性。研究显示，不同语言的单语BERT模型可通过简单的线性变换对齐，揭示出类似于词嵌入的通用潜在对称性，解释了为何mBERT在极少架构约束下仍能实现强大的零样本迁移。

ABSTRACT

We study the problem of multilingual masked language modeling, i.e. the training of a single model on concatenated text from multiple languages, and present a detailed study of several factors that influence why these models are so effective for cross-lingual transfer. We show, contrary to what was previously hypothesized, that transfer is possible even when there is no shared vocabulary across the monolingual corpora and also when the text comes from very different domains. The only requirement is that there are some shared parameters in the top layers of the multi-lingual encoder. To better understand this result, we also show that representations from independently trained models in different languages can be aligned post-hoc quite effectively, strongly suggesting that, much like for non-contextual word embeddings, there are universal latent symmetries in the learned embedding spaces. For multilingual masked language modeling, these symmetries seem to be automatically discovered and aligned during the joint training process.

研究动机与目标

探究多语言掩码语言模型中实现跨语言迁移的关键因素。
确定共享词汇或领域相似性是否为有效跨语言表征学习所必需。
检查在不同语言中独立训练的单语BERT模型是否仍表现出结构相似性。
评估线性对齐技术在跨语言表征映射中的有效性。
理解参数共享与架构设计在涌现式多语言表征学习中的作用。

提出的方法

对具有不同共享词汇水平、共享子词分词和领域重叠程度的双语BERT模型进行消融研究，以隔离跨语言迁移的关键因素。
在多种语言中独立训练单语BERT模型，并应用Procrustes对齐方法评估其隐藏表征的相似性。
使用中心化核对齐（CKA）测量所有Transformer层中单语与双语模型之间的神经网络相似性。
利用双语词典生成合成的代码切换语料，为语言关系较远的语言创建人工锚点。
应用线性映射技术，对单语BERT模型在子词和上下文表征层面的嵌入空间进行对齐。
在有限平行数据下，通过零样本跨语言迁移任务和并行句子检索评估对齐性能。

实验结果

研究问题

RQ1在多语言掩码语言模型中，促进跨语言迁移的最关键因素是什么——共享词汇、领域相似性，还是参数共享？
RQ2即使没有任何共享参数，独立训练的单语BERT模型是否仍能在不同语言间学习到相似的表征？
RQ3在多大程度上可以通过简单的线性变换对齐单语BERT模型的表征，且这种对齐在跨语言迁移中的有效性如何？
RQ4Transformer编码器的不同层中，表征相似性如何变化？这种变化是否随语言距离而异？
RQ5合成的代码切换数据能否提升跨语言对齐效果，尤其是在语言关系较远的语言中？

主要发现

多语言编码器顶层的参数共享是跨语言表征学习的主要驱动力，即使不同语言之间不共享任何子词，性能依然强劲。
即使没有共享词汇或领域相似性，跨语言迁移依然有效，表明仅靠共享参数即可实现表征的有意义对齐。
不同语言的单语BERT模型表现出高度的结构相似性，线性映射对齐性能优异——仅使用10,000组并行句子，即可在并行句子检索任务中达到90%以上的准确率。
多语言BERT模型的早期层在不同语言间表现出比后期层更高的CKA相似性，表明低级特征更具普遍性。
CKA相似性与对齐性能高度相关（r > 0.9），证实神经网络相似性度量可可靠预测跨语言迁移的有效性。
对于语言距离更远的语言对，单语与双语模型之间的相似性差距更小，表明联合训练对语言差异较大的语言对带来的增益更小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。