QUICK REVIEW

[论文解读] XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

Shuming Ma, Jian Yang|arXiv (Cornell University)|Dec 31, 2020

Natural Language Processing Techniques参考文献 26被引用 23

一句话总结

XLM-T 通过使用在多语言语料上预训练的交叉语言 Transformer 编码器（XLM-R）来初始化多语言神经机器翻译（NMT）模型，并在多语言平行语料上进行微调，提出了一种改进多语言神经机器翻译的方法。该方法在 WMT（10 个语言对）和 OPUS-100（94 个语言对）上均取得了显著且一致的性能提升，超越了强基线模型——包括使用回译的基线——证明了预训练在多语言翻译中的有效性。

ABSTRACT

Multilingual machine translation enables a single model to translate between different languages. Most existing multilingual machine translation systems adopt a randomly initialized Transformer backbone. In this work, inspired by the recent success of language model pre-training, we present XLM-T, which initializes the model with an off-the-shelf pretrained cross-lingual Transformer encoder and fine-tunes it with multilingual parallel data. This simple method achieves significant improvements on a WMT dataset with 10 language pairs and the OPUS-100 corpus with 94 pairs. Surprisingly, the method is also effective even upon the strong baseline with back-translation. Moreover, extensive analysis of XLM-T on unsupervised syntactic parsing, word alignment, and multilingual classification explains its effectiveness for machine translation. The code will be at https://aka.ms/xlm-t.

研究动机与目标

通过利用预训练的跨语言表示而非随机初始化，来提升多语言神经机器翻译（NMT）性能。
探究现成的预训练编码器（如 XLM-R）是否能在不重新在翻译数据上训练的情况下提升多语言 NMT 的性能。
通过提升跨语言泛化能力，评估预训练在低资源和零资源翻译设置下的有效性。
分析预训练编码器如何改善与翻译相关的底层语言表示，如词对齐和句法分析。

提出的方法

使用在 100 种语言上通过掩码语言建模预训练的 XLM-R 编码器的权重，初始化多语言 NMT 模型的编码器和解码器。
在多语言平行语料上端到端微调整个模型，使用标准 NMT 目标函数，将目标语言标记添加到源序列之前。
利用 XLM-R 的共享 25 万 token 词汇表和多语言注意力机制，实现跨语言迁移。
将 NLU 任务中已成功应用的预训练-微调范式应用于序列到序列的翻译任务。
在高资源（WMT）和低资源（OPUS-100）多语言翻译基准上评估性能。
进行探针任务——无监督句法分析、词对齐和多语言文本分类——以分析表示质量。

实验结果

研究问题

RQ1在大规模单语数据上预训练多语言编码器，是否能显著提升多语言 NMT 性能？
RQ2即使在使用强基线（如回译）的情况下，使用预训练的跨语言编码器初始化 NMT 模型是否仍优于随机初始化？
RQ3预训练表示如何影响多语言模型中的低级语言能力（如词对齐和句法分析）？
RQ4预训练编码器在多语言泛化方面有多大的提升作用，特别是在低资源和零资源语言对中？
RQ5预训练编码器引入了哪些特定的语言归纳偏置，从而有利于多语言翻译？

主要发现

XLM-T 在包含 10 个语言对的 WMT 基准上实现了显著且一致的性能提升，优于强随机初始化基线。
在包含 94 个语言对的更大规模 OPUS-100 数据集上，XLM-T 取得了显著提升，证明了其在多样化语言组合中的可扩展性。
即使在微调过程中超越了强回译基线，XLM-T 仍保持显著性能优势，表明预训练引入了互补的归纳偏置。
探针任务显示，与随机基线相比，XLM-T 显著提升了无监督句法分析和词对齐的质量。
XLM-T 还提升了多语言文本分类性能，表明其具备更优的跨语言表示学习能力。
结果表明，通过提升共享表示质量，单语数据上的预训练能显著增强跨语言迁移能力，尤其对低资源语言而言。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。