QUICK REVIEW

[论文解读] Unsupervised Neural Machine Translation Initialized by Unsupervised Statistical Machine Translation

Benjamin Marie, Atsushi Fujita|arXiv (Cornell University)|Oct 30, 2018

Natural Language Processing Techniques参考文献 21被引用 32

一句话总结

本文提出使用由无监督统计机器翻译（USMT）生成的合成平行数据来初始化无监督神经机器翻译（UNMT），从而在不修改现有监督NMT架构的前提下启用其应用。该方法在WMT16德语-英语翻译任务上达到新的最先进水平，使德语→英语翻译的BLEU差距降至仅3.7分。

ABSTRACT

Recent work achieved remarkable results in training neural machine translation (NMT) systems in a fully unsupervised way, with new and dedicated architectures that rely on monolingual corpora only. In this work, we propose to define unsupervised NMT (UNMT) as NMT trained with the supervision of synthetic bilingual data. Our approach straightforwardly enables the use of state-of-the-art architectures proposed for supervised NMT by replacing human-made bilingual data with synthetic bilingual data for training. We propose to initialize the training of UNMT with synthetic bilingual data generated by unsupervised statistical machine translation (USMT). The UNMT system is then incrementally improved using back-translation. Our preliminary experiments show that our approach achieves a new state-of-the-art for unsupervised machine translation on the WMT16 German--English news translation task, for both translation directions.

研究动机与目标

解决在无人工标注平行数据的情况下训练高质量无监督神经机器翻译（UNMT）系统的挑战。
克服先前UNMT方法依赖双语子词嵌入并假设源语言与目标语言之间存在语言相关性的局限性。
通过用合成数据替代真实平行数据，使成熟的监督NMT架构能够在无监督设置中直接使用。
通过迭代式后翻译和低质量合成句子的过滤，进一步提升UNMT性能。
证明高质量的USMT生成合成数据对于初始化高效UNMT系统至关重要。

提出的方法

使用在单语语料上训练的无监督统计机器翻译（USMT）系统生成合成双语平行数据。
使用USMT生成的合成平行数据初始化UNMT模型，将真实平行数据替换为合成数据，直接应用于标准NMT训练流程。
在多个训练阶段中迭代应用后翻译，逐步优化UNMT模型。
在每次迭代中过滤掉低置信度或噪声较大的合成句子，以提高训练效率和翻译质量。
使用标准NMT架构（如带注意力机制的编码器-解码器）且无需任何修改，将合成数据视为真实平行数据处理。
在训练过程中引入语言模型过滤，以提升收敛速度和性能，尤其对形态丰富的语言更为有效。

实验结果

研究问题

RQ1无监督统计机器翻译（USMT）能否有效用于初始化无监督神经机器翻译（UNMT）系统？
RQ2将人工标注的平行数据替换为USMT生成的合成数据，是否能通过标准NMT架构实现最先进水平的UNMT性能？
RQ3USMT生成的合成数据质量如何影响UNMT系统的最终性能？
RQ4迭代式后翻译与合成数据过滤在多大程度上能提升UNMT性能？
RQ5尽管仅依赖单语数据，该方法是否能在德语-英语等高资源语言对上取得具有竞争力的结果？

主要发现

所提方法在WMT16德语-英语新闻翻译任务上实现了无监督机器翻译的新SOTA，德语→英语翻译的BLEU得分为27.8。
最佳UNMT系统仅比在140万句平行句对上训练的监督NMT系统低3.7 BLEU分，表明其与监督模型具有极强的竞争力。
在每次迭代中对合成平行句子进行过滤，将4张GPU上的训练时间从52小时缩短至30小时，同时保持或提升了翻译质量。
UNMT的第二次迭代使德语→英语翻译质量提升了5.4 BLEU分，英语→德语提升了0.9 BLEU分，显示出显著的性能增益。
使用调优后的USMT生成的合成数据初始化的UNMT系统，在德语→英语任务上比使用未调优USMT数据初始化的系统高出超过6.0 BLEU分。
学习曲线证实，提升初始合成数据的质量对实现高性能UNMT至关重要，尤其是在训练初期阶段。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。