Skip to main content
QUICK REVIEW

[论文解读] Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges

Naveen Arivazhagan, Ankur Bapna|arXiv (Cornell University)|Jul 11, 2019
Natural Language Processing Techniques参考文献 152被引用 297
一句话总结

该论文在 25B 条平行句子上训练了一个覆盖 103 种语言的单一大规模多语言 NMT 模型,分析迁移与干扰,并指出在真实世界的通用翻译中数据采样和容量方面的挑战。

ABSTRACT

We introduce our efforts towards building a universal neural machine translation (NMT) system capable of translating between any language pair. We set a milestone towards this goal by building a single massively multilingual NMT model handling 103 languages trained on over 25 billion examples. Our system demonstrates effective transfer learning ability, significantly improving translation quality of low-resource languages, while keeping high-resource language translation quality on-par with competitive bilingual baselines. We provide in-depth analysis of various aspects of model building that are crucial to achieving quality and practicality in universal NMT. While we prototype a high-quality universal translation system, our extensive empirical analysis exposes issues that need to be further addressed, and we suggest directions for future research.

研究动机与目标

  • 旨在构建一个能够翻译任意语言对的单一通用 NMT 模型。
  • 研究多语言训练如何在保留高资源语言性能的同时促进对低资源语言的迁移。
  • 检查网络抓取的平行数据中的数据不平衡、噪声和领域问题及其对学习的影响。
  • 评估通过数据采样、容量和调度在大规模多语言 MT 中控制干扰的策略。

提出的方法

  • 在102种语言加上英语上训练一个单一的基于 Transformer 的模型(Transformer Big),使用共享的64k句子片段词汇。
  • 在每个源序列前添加目标语言标记,以引导翻译方向。
  • 探索平衡语言曝光的数据采样策略,包括真实分布(T=1)和均衡采样(如 T=5、T=100)。
  • 将双语基线与具有共享编码器/解码器和单一共享词汇表的多语言设置进行比较。
  • 使用大规模数据并行(跨 TPUv3),批量大小高达 4M 令牌以实现更快收敛。
  • 使用在多向对齐的开发/测试集上的 BLEU 进行评估,并报告方向特定的性能。

实验结果

研究问题

  • RQ1在高资源语言与低资源语言之间,训练一个大规模多语言 NMT 模型如何影响翻译质量?
  • RQ2是否可以利用积极迁移来提升低资源语言的翻译,同时不严重损害高资源语言?
  • RQ3网络抓取数据中的数据不平衡和噪声如何影响通用 MT 模型的学习、迁移和干扰?
  • RQ4哪些采样、调度和优化策略可以缓解干扰并促进在大规模多语言 MT 中的迁移?
  • RQ5在不同方向(Any→En、En→Any)以及零样本翻译方面,Many-to-one 与 one-to-many 训练设置在迁移收益方面的差异如何?

主要发现

  • 大规模多语言训练带来对低资源语言的迁移,但会引入干扰,可能降低高资源语言的性能。
  • 均衡采样(对低资源语言进行过采样)增加对低资源语言的迁移,但损害高资源语言的性能;真实数据分布采样能保留高资源语言的性能,但降低迁移。
  • 干扰随语言/任务数量增加而增加;如果语言数量增加而容量不成比例提升,会在各语言组之间降低性能。
  • Many-to-one(Any→En)模型在低资源语言上显示出显著收益,而 one-to-many(En→Any)模型在某些设置下对低资源语言的迁移较少,对高资源语言的下降更为明显。
  • 零样本翻译质量随语言增多和促进跨语言迁移的正则化而提升,但在没有平行数据的情况下,直接的非英语对翻译仍然具有挑战性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。