[论文解读] Multilingual Translation with Extensible Multilingual Pretraining and Finetuning
这篇论文展示了可以通过对预训练模型(如 mBART)进行多语言微调来构建多语言翻译模型,扩展到 50 种语言(mBART50)且无需从头重新训练,并引入 ML50 基准用于可重复的多语言 MT 研究。
Recent work demonstrates the potential of multilingual pretraining of creating one model that can be used for various tasks in different languages. Previous work in multilingual pretraining has demonstrated that machine translation systems can be created by finetuning on bitext. In this work, we show that multilingual translation models can be created through multilingual finetuning. Instead of finetuning on one direction, a pretrained model is finetuned on many directions at the same time. Compared to multilingual models trained from scratch, starting from pretrained models incorporates the benefits of large quantities of unlabeled monolingual data, which is particularly important for low resource languages where bitext is not available. We demonstrate that pretrained models can be extended to incorporate additional languages without loss of performance. We double the number of languages in mBART to support multilingual machine translation models of 50 languages. Finally, we create the ML50 benchmark, covering low, mid, and high resource languages, to facilitate reproducible research by standardizing training and evaluation data. On ML50, we demonstrate that multilingual finetuning improves on average 1 BLEU over the strongest baselines (being either multilingual from scratch or bilingual finetuning) while improving 9.3 BLEU on average over bilingual baselines from scratch.
研究动机与目标
- 证明对预训练模型进行多语言微调能够获得强大的多语言翻译性能。
- 展示扩展预训练模型以包含额外语言不会损害原有语言的性能。
- 引入一个标准化基准(ML50),覆盖高资源、中资源和低资源语言,用于可重复的多语言 MT 研究。
提出的方法
- 以 mBART 作为基础的预训练多语言去噪自编码器。
- 在多语言双语文本上进行微调,覆盖多语言方向(N 对 N 语言)。
- 在输入/输出中添加语言标记,以在微调期间指定源语言/目标语言。
- 探索三种模型变体:Many-to-one、一对多,以及多对多(通过英语作为中介)。
- 应用基于温度的上采样,以平衡跨语言对的多语言训练数据。
实验结果
研究问题
- RQ1对比,使用对预训练模型的多语言微调是否能超越双语微调和从零开始的多语言训练?
- RQ2是否可以在不从头重新训练或不降低原语言性能的情况下,将现有的预训练模型(mBART)扩展到包含更多语言?
- RQ3多语言微调是否在 Many-to-one、one-to-many、以及 many-to-many 翻译方向上提供一致的增益?
- RQ4添加语言对预训练模型原语言性能的影响如何?
- RQ5提出的 ML50 基准如何支持多语言 MT 的可重复评估?
主要发现
- 多语言微调相对于双语基线获得平均 BLEU 增益,尤其在 Many-to-English 中对 English 的增益显著为 +3.6,在某些设置下的 English-to-Many 配置为 +3.0 BLEU(如摘要结果所示)。
- 将 mBART 扩展到 50 种语言(mBART50)在为翻译任务微调时不会降低原始 25 种语言的性能。
- 在 50 语言设置中,ML-FT 相较最强基线平均提升为 2.61 BLEU(Many-to-one)、-0.47 BLEU(one-to-Many)、以及 -0.15 至 -0.35 BLEU(Many-to-Many),指示对低资源对尤其稳健的性能提升。
- ML50 基准标准化数据源、语言和评估,以实现可重复的多语言 MT 研究(230M 双语文本;覆盖不同资源水平的 50 种语言)。
- 与双语微调相比,多语言微调在面向英语的 50 个方向上平均可提升最多 12.3 BLEU;某些低资源语言在 Many-to-one 翻译中显示出 10+ BLEU 的增益。
- 总的来说,当将 Many-to-one 与 Many-to-Many 方向结合时,多语言微调在平均水平上始终优于最强基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。