[论文解读] Unsupervised Neural Machine Translation
这篇论文通过使用带固定跨语言嵌入的共享编码器、降噪和即时回译,在没有任何并行数据的情况下训练一个神经机器翻译系统,在 WMT 2014 法英和德英任务上取得显著的 BLEU 得分。
In spite of the recent success of neural machine translation (NMT) in standard benchmarks, the lack of large parallel corpora poses a major practical problem for many language pairs. There have been several proposals to alleviate this issue with, for instance, triangulation and semi-supervised learning techniques, but they still require a strong cross-lingual signal. In this work, we completely remove the need of parallel data and propose a novel method to train an NMT system in a completely unsupervised manner, relying on nothing but monolingual corpora. Our model builds upon the recent work on unsupervised embedding mappings, and consists of a slightly modified attentional encoder-decoder model that can be trained on monolingual corpora alone using a combination of denoising and backtranslation. Despite the simplicity of the approach, our system obtains 15.56 and 10.21 BLEU points in WMT 2014 French-to-English and German-to-English translation. The model can also profit from small parallel corpora, and attains 21.81 and 15.24 points when combined with 100,000 parallel sentences, respectively. Our implementation is released as an open source project.
研究动机与目标
- 为几乎没有并行数据的语言对提供实用的 NMT 动机。
- 提出一个仅利用单语语料的无监督 NMT 模型。
- 展示降噪和回译如何在无并行数据的情况下实现翻译学习。
提出的方法
- 使用一个双语系统的双向结构,只有一个共享编码器。
- 在编码器中固定跨语言嵌入,以获得语言无关的表示。
- 通过对带噪声的输入进行降噪训练,以学习跨语言的成分结构。
- 将即时回译引入训练,用以生成伪并行数据。
- 可选地与小量并行语料结合,形成半监督设置。
- 使用标准的基于注意力的编码器-解码器,包含 GRU 单元和 300 维嵌入;使用交叉熵损失和 Adam 优化器进行训练。
实验结果
研究问题
- RQ1一个仅使用单语数据、没有任何并行语料的 NMT 系统是否能被有效训练?
- RQ2在无监督设置中,降噪和回译如何提升跨语言翻译质量?
- RQ3固定的跨语言嵌入和共享编码器在多大程度上能够使语言之间学习到真实的翻译关系?
主要发现
| FR-EN | EN-FR | DE-EN | EN-DE | |
|---|---|---|---|---|
| 1. Baseline (emb. nearest neighbor) | 9.98 | 6.25 | 7.07 | 4.39 |
| 2. Proposed (denoising) | 7.28 | 5.33 | 3.64 | 2.40 |
| 3. Proposed (+ backtranslation) | 15.56 | 15.13 | 10.21 | 6.55 |
| 4. Proposed (+ BPE) | 15.56 | 14.36 | 10.16 | 6.89 |
| 5. Semi- Proposed (10k parallel) | 18.57 | 17.34 | 11.47 | 7.86 |
| 6. Semi- Proposed (100k parallel) | 21.81 | 21.74 | 15.24 | 10.95 |
| 7. Comparable NMT (10k parallel) | 1.88 | 1.66 | 1.33 | 0.82 |
| 8. Comparable NMT (100k parallel) | 10.40 | 9.19 | 8.11 | 5.29 |
| 9. Comparable NMT (full parallel) | 20.48 | 19.89 | 15.04 | 11.05 |
| 10. GNMT (Wu et al., 2016) | - | 38.95 | - | 24.61 |
- 在 WMT 2014 的法英和德英无监督翻译中,BLEU 分别达到 15.56(FR→EN)和 10.21(DE→EN)。
- 与 100k 条并行句子结合时,BLEU 提升至 21.81(FR→EN)和 15.24(DE→EN)。
- 回译在性能上明显优于仅降噪,表明其关键作用。
- 子词单元(BPE)带来边际、方向相关的收益。
- 带少量并行数据的半监督训练在完全无监督训练的基础上进一步提升。
- 该方法学习到的翻译关系不仅仅是逐词替换,具有非平凡性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。