Skip to main content
QUICK REVIEW

[论文解读] Beyond English-Centric Multilingual Machine Translation

Angela Fan, Shruti Bhosale|arXiv (Cornell University)|Oct 21, 2020
Natural Language Processing Techniques参考文献 81被引用 468
一句话总结

本文建立了一个真正的多对多翻译模型(M2M-100),无需通过英语作为中介即可实现100种语言之间的翻译,利用大规模数据挖掘、回译,以及密集和稀疏参数的混合来实现对非英语翻译的强性能。

ABSTRACT

Existing work in translation demonstrated the potential of massively multilingual machine translation by training a single model able to translate between any pair of languages. However, much of this work is English-Centric by training only on data which was translated from or to English. While this is supported by large sources of training data, it does not reflect translation needs worldwide. In this work, we create a true Many-to-Many multilingual translation model that can translate directly between any pair of 100 languages. We build and open source a training dataset that covers thousands of language directions with supervised data, created through large-scale mining. Then, we explore how to effectively increase model capacity through a combination of dense scaling and language-specific sparse parameters to create high quality models. Our focus on non-English-Centric models brings gains of more than 10 BLEU when directly translating between non-English directions while performing competitively to the best single systems of WMT. We open-source our scripts so that others may reproduce the data, evaluation, and final M2M-100 model.

研究动机与目标

  • 解决多语言机器翻译中的英语中心偏见,使非英语语言对直接翻译成为可能。
  • 使用多语言数据挖掘和回译,构建一个大规模的100语言并行数据集(7.5B句子,2200个方向)。
  • 通过密集容量和语言特定的稀疏参数来研究模型扩展性,以应对二次数据增长。
  • 提出桥语言数据挖掘策略,以高效挖掘有用的双语文本,而无需穷举覆盖所有语言对。
  • 评估得到的M2M-100模型与双语基线和WMT风格基准的表现,以证明具有竞争力。

提出的方法

  • 使用基于 Transformer 的 seq2seq 架构,12 层编码器和 12 层解码器,参数量 1.2B,作为基础模型,采用标签平滑和 LayerDrop 以实现稳定性。
  • 采用 SentencePiece 子词分词,具备128k令牌的多语言字典,利用温度采样实现跨语言的平衡。
  • 通过桥语言挖掘,将语言分组为14个聚类,使用26个桥语言,并对英语进行挖掘,构建100语言的多对多并行数据集。
  • 利用 LASER 基于嵌入的数据挖掘管道和 FAISS 索引,从 CCMatrix/CCAligned 中挖掘并行数据,进行后过滤和语言特定检查。
  • 用回译扩增100个方向的数据,BLEU 2–10,针对每个目标语言采样 50M 条单语句,并对 BT 数据打标。
  • 引入混合密集-稀疏参数策略(专家混合)并进行语言特定路由,规模扩展到 15.4B 参数,同时在数百个 GPU 上保持可训练性。

实验结果

研究问题

  • RQ1一个真正的多对多 MT 系统能否在不经过英语中介的情况下,直接在100种语言中任意对之间翻译,并达到有竞争力的性能?
  • RQ2基于桥语言的挖掘在数据效率和翻译质量方面,与英语中心的挖掘相比有何差异?
  • RQ3在100语言设置下,密集扩展和语言特定的稀疏参数对模型容量和翻译质量有何影响?
  • RQ4在多对多设置中,回译是否对各种语言方向普遍提升翻译质量?

主要发现

  • 直接在非英语方向之间的翻译,在直接比较非英语方向时BLEU值提升超过10分,与英语中心基线相比具有优势。
  • 14个语言组和26个桥语言的桥语言挖掘,产生的并行数据量比英语中心的挖掘多出5–10倍,提升了中低资源语言的覆盖。
  • 在多对多训练数据中加入回译,能普遍提升各方向的BLEU,尤其是对性能较低的对。
  • 通过密集和稀疏混合的扩展,M2M-100 可达到并保持高效训练,达到 15.4B 参数,并实现直接的100×100翻译方向。
  • 在标准基准上,多对多模型与最佳的单一双语系统如 WMT 相竞争,尽管方向集合大幅增多。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。