QUICK REVIEW

[论文解读] Unsupervised Machine Translation Using Monolingual Corpora Only

Guillaume Lample, Alexis Conneau|arXiv (Cornell University)|Oct 31, 2017

Natural Language Processing Techniques参考文献 36被引用 198

一句话总结

这篇论文提出了一种无监督神经机器翻译方法，通过在共享潜在空间对齐两种语言，利用去噪自编码、跨域翻译和对抗训练，起始于逐词无监督字典。

ABSTRACT

Machine translation has recently achieved impressive performance thanks to recent advances in deep learning and the availability of large-scale parallel corpora. There have been numerous attempts to extend these successes to low-resource language pairs, yet requiring tens of thousands of parallel sentences. In this work, we take this research direction to the extreme and investigate whether it is possible to learn to translate even without any parallel data. We propose a model that takes sentences from monolingual corpora in two different languages and maps them into the same latent space. By learning to reconstruct in both languages from this shared feature space, the model effectively learns to translate without using any labeled data. We demonstrate our model on two widely used datasets and two language pairs, reporting BLEU scores of 32.8 and 15.1 on the Multi30k and WMT English-French datasets, without using even a single parallel sentence at training time.

研究动机与目标

在零并行数据情景下激发翻译动机并为半监督方法建立一个强下界。
开发一个端到端的无监督MT模型，将两种语言映射到一个共同的潜在空间。
利用去噪自编码、跨域翻译和对抗分布对齐来学习翻译。
提供一个迭代培训过程，在没有标注数据的情况下提升翻译质量。

提出的方法

对两种语言使用一个单一的编码器/解码器，并针对语言建立特定的查找表。
用两种语言的去噪自编码损失进行训练。
通过使用当前模型在语言之间进行翻译并重建原句，加入跨域翻译目标。
采用对抗损失，通过一个能从编码中预测语言的判别器来对两种语言的潜在表示进行对齐，编码器被其迷惑。
从单语数据中学习的无监督逐词翻译字典初始化，并通过回译迭代改进。
将完整目标函数优化为自编码、跨域和对抗损失的加权和；共同更新判别器。
使用迭代训练（M^(t) -> M^(t+1)），逐步提高翻译质量。

实验结果

研究问题

RQ1在两个语言只有单语语料的情况下，机器翻译能在没有任何并行数据的情况下学习吗？
RQ2将两种语言映射到一个共享潜在空间是否能够实现有效的跨语言解码？
RQ3去噪、自域重建和对抗对齐如何促进无监督翻译质量？
RQ4迭代训练和从单语资源初始化对BLEU分数有何影响？
RQ5如何在没有并行数据的情况下选择超参数？

主要发现

在 Multi30k-Task1 英-法上，BLEU 从 27.48（迭代1）提升到 32.76（迭代3）。
在 Multi30k-Task1 英-德上，BLEU 从 23.69（迭代1）提升到 26.26（迭代3）。
在 WMT 英-法上，BLEU 从 12.10（迭代1）提升到 15.05（迭代3）。
在 WMT 法-英上，BLEU 从 11.79（迭代1）提升到 14.31（迭代3）。
在WMT en-fr 对，使用两语言单语数据的无监督模型，其性能可与在约100,000个并行句子上训练的有监督MT系统相媲美。
基于判别器的对抗对齐以及自编码与跨域损失的组合对性能至关重要，正如消融结果所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。