Skip to main content
QUICK REVIEW

[论文解读] XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

Shuming Ma, Jian Yang|arXiv (Cornell University)|Dec 31, 2020
Natural Language Processing Techniques参考文献 26被引用 23
一句话总结

XLM-T 通过使用在多语言语料上预训练的交叉语言 Transformer 编码器(XLM-R)来初始化多语言神经机器翻译(NMT)模型,并在多语言平行语料上进行微调,提出了一种改进多语言神经机器翻译的方法。该方法在 WMT(10 个语言对)和 OPUS-100(94 个语言对)上均取得了显著且一致的性能提升,超越了强基线模型——包括使用回译的基线——证明了预训练在多语言翻译中的有效性。

ABSTRACT

Multilingual machine translation enables a single model to translate between different languages. Most existing multilingual machine translation systems adopt a randomly initialized Transformer backbone. In this work, inspired by the recent success of language model pre-training, we present XLM-T, which initializes the model with an off-the-shelf pretrained cross-lingual Transformer encoder and fine-tunes it with multilingual parallel data. This simple method achieves significant improvements on a WMT dataset with 10 language pairs and the OPUS-100 corpus with 94 pairs. Surprisingly, the method is also effective even upon the strong baseline with back-translation. Moreover, extensive analysis of XLM-T on unsupervised syntactic parsing, word alignment, and multilingual classification explains its effectiveness for machine translation. The code will be at https://aka.ms/xlm-t.

研究动机与目标

  • 通过利用预训练的跨语言表示而非随机初始化,来提升多语言神经机器翻译(NMT)性能。
  • 探究现成的预训练编码器(如 XLM-R)是否能在不重新在翻译数据上训练的情况下提升多语言 NMT 的性能。
  • 通过提升跨语言泛化能力,评估预训练在低资源和零资源翻译设置下的有效性。
  • 分析预训练编码器如何改善与翻译相关的底层语言表示,如词对齐和句法分析。

提出的方法

  • 使用在 100 种语言上通过掩码语言建模预训练的 XLM-R 编码器的权重,初始化多语言 NMT 模型的编码器和解码器。
  • 在多语言平行语料上端到端微调整个模型,使用标准 NMT 目标函数,将目标语言标记添加到源序列之前。
  • 利用 XLM-R 的共享 25 万 token 词汇表和多语言注意力机制,实现跨语言迁移。
  • 将 NLU 任务中已成功应用的预训练-微调范式应用于序列到序列的翻译任务。
  • 在高资源(WMT)和低资源(OPUS-100)多语言翻译基准上评估性能。
  • 进行探针任务——无监督句法分析、词对齐和多语言文本分类——以分析表示质量。

实验结果

研究问题

  • RQ1在大规模单语数据上预训练多语言编码器,是否能显著提升多语言 NMT 性能?
  • RQ2即使在使用强基线(如回译)的情况下,使用预训练的跨语言编码器初始化 NMT 模型是否仍优于随机初始化?
  • RQ3预训练表示如何影响多语言模型中的低级语言能力(如词对齐和句法分析)?
  • RQ4预训练编码器在多语言泛化方面有多大的提升作用,特别是在低资源和零资源语言对中?
  • RQ5预训练编码器引入了哪些特定的语言归纳偏置,从而有利于多语言翻译?

主要发现

  • XLM-T 在包含 10 个语言对的 WMT 基准上实现了显著且一致的性能提升,优于强随机初始化基线。
  • 在包含 94 个语言对的更大规模 OPUS-100 数据集上,XLM-T 取得了显著提升,证明了其在多样化语言组合中的可扩展性。
  • 即使在微调过程中超越了强回译基线,XLM-T 仍保持显著性能优势,表明预训练引入了互补的归纳偏置。
  • 探针任务显示,与随机基线相比,XLM-T 显著提升了无监督句法分析和词对齐的质量。
  • XLM-T 还提升了多语言文本分类性能,表明其具备更优的跨语言表示学习能力。
  • 结果表明,通过提升共享表示质量,单语数据上的预训练能显著增强跨语言迁移能力,尤其对低资源语言而言。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。