QUICK REVIEW

[论文解读] Phrase-Based & Neural Unsupervised Machine Translation.

Guillaume Lample, Myle Ott|arXiv (Cornell University)|Apr 20, 2018

Natural Language Processing Techniques参考文献 41被引用 232

一句话总结

该论文提出了一种基于短语和神经网络的无监督机器翻译框架，通过三种核心原则利用单语数据：（1）使用双语词典进行初始化，（2）通过语言模型进行去噪，（3）迭代式后翻译。该方法在无需任何平行语句的情况下实现了最先进性能——在英语-法语上达到28.1 BLEU，在德语-英语上达到25.2 BLEU，相比先前的无监督方法高出超过11 BLEU点。

ABSTRACT

Machine translation systems achieve near human-level performance on some languages, yet their effectiveness strongly relies on the availability of large amounts of parallel sentences, which hinders their applicability to the majority of language pairs. This work investigates how to learn to translate when having access to only large monolingual corpora in each language. We propose two model variants, a neural and a phrase-based model. Both versions leverage a careful initialization of the parameters, the denoising effect of language models and automatic generation of parallel data by iterative back-translation. These models are significantly better than methods from the literature, while being simpler and having fewer hyper-parameters. On the widely used WMT'14 English-French and WMT'16 German-English benchmarks, our models respectively obtain 28.1 and 25.2 BLEU points without using a single parallel sentence, outperforming the state of the art by more than 11 BLEU points. On low-resource languages like English-Urdu and English-Romanian, our methods achieve even better results than semi-supervised and supervised approaches leveraging the paucity of available bitexts. Our code for NMT and PBSMT is publicly available.

研究动机与目标

通过消除对平行语料的依赖，解决低资源和零样本机器翻译的挑战。
解决低资源语言对中平行语料极少或不存在的数据稀缺问题。
提出一种统一且有原则的无监督机器翻译方法，以提升泛化能力和训练稳定性。
证明在正确初始化和正则化的情况下，基于短语的模型在完全无监督设置下可超越神经网络模型。
将无监督机器翻译的适用范围扩展至低资源和语系差异较大的语言对，如英语-乌尔都语和英语-罗马尼亚语。

提出的方法

通过跨语言词嵌入对齐，从单语语料中推断出双语词典，并以此初始化模型。
通过语言建模目标，训练序列到序列模型以重建被破坏的输入句子，实现去噪自编码。
实施迭代后翻译：使用源到目标模型生成合成的目标句子，然后在这些生成的配对数据上训练目标到源模型。
通过绑定双向模型中的编码器嵌入，强制在不同语言间共享潜在表示。
以循环方式联合训练两个模型：从源到目标进行后翻译，再从目标回译到源，使用重建损失作为信号。
对于PBSMT，使用神经推断的双语n-gram词典初始化短语表，并通过后翻译迭代优化翻译表。

实验结果

研究问题

RQ1无监督神经网络和基于短语的机器翻译系统是否能在不使用任何平行句子的情况下实现最先进性能？
RQ2语言建模和去噪自编码如何提升无监督翻译的质量？
RQ3使用合成平行数据的迭代后翻译是否能显著提升零样本翻译性能？
RQ4在正确初始化和正则化的情况下，基于短语的模型是否能在无监督设置中超越神经网络模型？
RQ5这些方法在低资源和语系差异较大的语言对（如英语-乌尔都语和英语-罗马尼亚语）上的有效性如何？

主要发现

所提出的神经模型在WMT’14英语-法语上达到28.1 BLEU，在WMT’16德语-英语上达到25.2 BLEU，相比先前无监督方法高出超过11 BLEU点。
基于短语的系统在标准基准测试上实现了最高达12 BLEU点的性能提升，通常与神经模型表现相当或更优。
在低资源语言对（如英语-乌尔都语和英语-罗马尼亚语）上，该方法优于使用有限平行数据的半监督和监督基线模型。
消融实验证实，后翻译和自编码是关键组件；若移除它们，模型将无法学习。
在拼接的单语语料上学习字节对编码（BPE）嵌入，相比先前工作性能提升7 BLEU点。
迭代后翻译过程逐步收敛并持续提升翻译质量，即使在500万句的生成数据下仍能观察到性能增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。