Skip to main content
QUICK REVIEW

[论文解读] Multilingual Denoising Pre-training for Neural Machine Translation

Yinhan Liu, Jiatao Gu|arXiv (Cornell University)|Jan 22, 2020
Natural Language Processing Techniques参考文献 54被引用 607
一句话总结

本文介绍 mBART,一种在 25 种语言上进行预训练的多语种序列到序列去噪自编码器,可以针对大量语言对进行有监督和无监督机器翻译的微调,在低资源/中等资源设置下尤其实现显著提升,并实现跨语言迁移。

ABSTRACT

This paper demonstrates that multilingual denoising pre-training produces significant performance gains across a wide variety of machine translation (MT) tasks. We present mBART -- a sequence-to-sequence denoising auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective. mBART is one of the first methods for pre-training a complete sequence-to-sequence model by denoising full texts in multiple languages, while previous approaches have focused only on the encoder, decoder, or reconstructing parts of the text. Pre-training a complete model allows it to be directly fine tuned for supervised (both sentence-level and document-level) and unsupervised machine translation, with no task-specific modifications. We demonstrate that adding mBART initialization produces performance gains in all but the highest-resource settings, including up to 12 BLEU points for low resource MT and over 5 BLEU points for many document-level and unsupervised models. We also show it also enables new types of transfer to language pairs with no bi-text or that were not in the pre-training corpus, and present extensive analysis of which factors contribute the most to effective pre-training.

研究动机与目标

  • 动机与结果表明,通过带有去噪目标的完整多语种 Seq2Seq 模型预训练,可以提升跨多种语言对的 MT。
  • 展示 mBART 预训练在有监督的句子级和文档级 MT,以及无监督 MT 上取得显著提升。
  • 研究语言数量、语言相似度和预训练步骤等因素如何影响增益。
  • 展示对没有双语文本的语言对以及未出现在预训练数据中的语言的迁移,表明该预训练模型具有语言通用性收益。

提出的方法

  • 在覆盖 25 种语言(CC25)的大规模单语语料上,使用 BART 风格的去噪目标对多语种序列到序列模型(mBART)进行预训练。
  • 使用两种噪声类型:跨度掩码(35% 的单词)和句子置换,并配以语言 ID token 来引导解码。
  • 在多语言数据上使用单一 Transformer 模型(12 层编码器和 12 层解码器,模型维度 1024,约 680M 参数),使用 256 个 V100 GPU 进行 500K 步训练。
  • 在双语平行数据上对预训练模型进行有监督 MT 的微调,使用 teacher forcing 和标准解码(束宽 5)。
  • 在句子级 MT、文档级 MT 以及无监督 MT 任务上进行评估,包含回译和语言迁移情景。
  • 与其他预训练方法进行对比,以确立完整 Seq2Seq 多语种预训练的优势。

实验结果

研究问题

  • RQ1一个经过去噪目标预训练的完整多语种 Seq2Seq 模型,能否在低/中/高资源语言对上提高 MT?
  • RQ2多语言预训练是否能实现对没有双语文本的语言对以及未出现在预训练数据中的语言的迁移?
  • RQ3诸如预训练语言数量、语言相似度、预训练步骤等因素如何影响 MT 增益?
  • RQ4预训练如何与回译和文档级 MT 任务相互作用?
  • RQ5预训练对无监督 MT 是否有益,包括语言迁移情景?

主要发现

  • mBART 预训练在低资源和中等资源的双语文本对上带来增益,甚至可达到高达 12 BLEU 点的提升。
  • 对于高资源对,预训练增益不太一致,在存在大量双语文本时可能略有负面影响。
  • 回译结合 mBART 初始化在若干方向(如 En–Si、En–Ne 在 FLoRes)取得了新的最先进结果。
  • mBART 在多个 En–Ro 及相关方向上优于其他预训练方法(如 XLM、MASS、BART 变体),尤其在 BT 情况下。
  • 文档级 MT 在预训练后受益显著,Doc-MT 的表现优于未预训练的 Sent-MT,且预训练显著优于非预训练基线。
  • 通过回译和语言迁移场景,mBART 预训练使无监督 MT 受益,包括在不相似的对(如 En–Ne、En–Si)上也表现出色,超越先前方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。