QUICK REVIEW

[论文解读] Massively Multilingual Neural Machine Translation

Roee Aharoni, Melvin Johnson|arXiv (Cornell University)|Feb 28, 2019

Natural Language Processing Techniques参考文献 37被引用 46

一句话总结

本文将神经机器翻译扩展到102种语言，以英语为中心，训练单一Transformer模型在英文及其204个方向之间进行翻译，并在双语基线上显示出收益，特别是在低资源设置下，非英语目标存在一些权衡。

ABSTRACT

Multilingual neural machine translation (NMT) enables training a single model that supports translation from multiple source languages into multiple target languages. In this paper, we push the limits of multilingual NMT in terms of number of languages being used. We perform extensive experiments in training massively multilingual NMT models, translating up to 102 languages to and from English within a single model. We explore different setups for training such models and analyze the trade-offs between translation quality and various modeling decisions. We report results on the publicly available TED talks multilingual corpus where we show that massively multilingual many-to-many models are effective in low resource settings, outperforming the previous state-of-the-art while supporting up to 59 languages. Our experiments on a large-scale dataset with 102 languages to and from English and up to one million examples per direction also show promising results, surpassing strong bilingual baselines and encouraging future work on massively multilingual NMT.

研究动机与目标

证明以英语为中心的、大规模多语种的NMT模型能够扩展到大量语言和翻译方向。
在TED演讲和一个大型内部数据集上，在低资源和高资源设置下评估翻译质量。
分析涉及语言数量如何影响性能与泛化，包括零样本翻译。
在相同训练条件下将多对多模型与多对一和双语基线进行比较。
识别大规模多语种NMT的实际权衡与未来方向。

提出的方法

使用Transformer基础结构（6层编码器/解码器，模型维度512，隐藏层2048，8个注意头），并采用dropout和逆平方根学习率调度。
在116个方向上训练以英语为中心的多对多模型（58种语言与英语互译），使用联合子词分割（32k词汇表）和异质批处理。
在相同条件下与双语基线和现有多语种方法进行比较。
在TED Talks多语言语料库（59种语言，116个方向）以及一个大型内部103语言语料库（102种语言，204个方向）上进行评估，每对语言对最多可达1,000,000个样本。
研究训练集规模、资源水平和模型容量对翻译质量和零样本性能的影响。

实验结果

研究问题

RQ1单一NMT模型在极大数量语言和翻译方向上的扩展能力有多强？
RQ2在低资源和高资源设置下，大规模多语种多对多设置是否优于双语和多对一基线？
RQ3增加涉及语言数量如何影响翻译质量和零样本泛化？
RQ4在大规模多语种NMT中，模型容量、任务数量和数据规模之间有哪些权衡？
RQ5多语言训练能否提升零样本翻译与跨语言迁移？

主要发现

在低资源的TED情境下，大规模多语种多对多模型在英译X方向上优于双语基线和多对一模型。
在英译X方面，多对多模型比Neubig & Hu (2018)的最佳多对一基线平均提高约1.82 BLEU，并在四个低资源对上比他们的多对一模型高出2.44 BLEU。
在103语言高资源设置中，翻译到英语时，多对一和多对多模型在平均意义上均优于基线，多对一通常表现最好，除了某些语言对（例如德英对自德英开发集）等情况。
从英语翻译到其他语言时，在相同条件下，一对多模型通常优于多对多设置。
零样本和多语言分析显示权衡：增加语言数量可以提升零样本性能，但在固定容量下可能降低某些对的监督性能；中等规模子集（例如50对50对）在泛化与准确性之间取得平衡。
随着语言数量增加，零样本提升出现，但收益因语言对和数据集大小而异。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。