Skip to main content
QUICK REVIEW

[论文解读] Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation

Aditya Siddhant, Ankur Bapna|arXiv (Cornell University)|May 11, 2020
Natural Language Processing Techniques参考文献 24被引用 35
一句话总结

本文将单语数据与自监督学习结合到多语言神经机器翻译中,以提升低资源语言的翻译,并在无并行数据的情况下实现对未见语言的有效添加。

ABSTRACT

Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of low-resource languages via multilingual NMT. The second direction employs monolingual data with self-supervision to pre-train translation models, followed by fine-tuning on small amounts of supervised data. In this work, we join these two lines of research and demonstrate the efficacy of monolingual data with self-supervision in multilingual NMT. We offer three major results: (i) Using monolingual data significantly boosts the translation quality of low-resource languages in multilingual models. (ii) Self-supervision improves zero-shot translation quality in multilingual models. (iii) Leveraging monolingual data with self-supervision provides a viable path towards adding new languages to multilingual models, getting up to 33 BLEU on ro-en translation without any parallel data or back-translation.

研究动机与目标

  • 提出将多语言迁移学习与自监督的单语预训练结合用于NMT的动机。
  • 证明在多语言设置中,单语数据能够提升跨语言的翻译质量。
  • 表明自监督在多语言模型中的零样本翻译性能提升。
  • 展示仅使用单语数据即可为多语言NMT添加新语言的路径。
  • 提供关于WMT数据在多种语言方向上的实证证据。

提出的方法

  • 使用基于 MASS 的掩码序列到序列预训练,改编为多语言 NMT。
  • 在源句前置一个目标语言标记 <2xx> 以表示所需的输出语言。
  • 在有监督的并行数据(翻译目标)和单语数据上联合训练,使用 MASS 目标。
  • 使用基于温度的采样来平衡语言数据以解决资源不平衡问题。
  • 在同时使用两种来源时,将单语自监督与并行数据按 50/50 的比例混合。
  • 在标准 WMT 验证/测试集上使用 SacreBLEU 进行评估。

实验结果

研究问题

  • RQ1在多语言 NMT 设置中,结合单语数据与自监督是否提高了低资源语言的翻译质量?
  • RQ2自监督是否提升多语言模型的零样本翻译质量?
  • RQ3使用自监督的单语数据是否能在没有并行数据的情况下帮助向多语言模型中添加新语言?
  • RQ4该方法与双语基线、枢纽/其他多语言设置在各语言方向上的比较如何?

主要发现

  • 在多语言 NMT 中加入单语数据可为低资源语言带来显著的质量提升。
  • 自监督提升零样本翻译性能,接近基于枢纽的方法,而无需对齐或对抗损失。
  • 单语数据与自监督使向多语言模型添加新语言成为可能,具备强翻译质量,常接近完全监督的多语言基线。
  • 在高资源方向,带有单语数据的多语言模型可与双语基线相匹配或接近,虽有个别例外。
  • 对于某些极低资源语言,单语数据带来的增益特别大(3–5 BLEU,在某些方向更高)。
  • 在 ro-en 上,带有单语数据的模型优于 XLM,且在无回译的情况下达到基于 MASS 的双语性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。