QUICK REVIEW

[论文解读] Building a Neural Machine Translation System Using Only Synthetic Parallel Data

Jae-Hong Park, Jongyoon Song|arXiv (Cornell University)|Apr 2, 2017

Natural Language Processing Techniques参考文献 29被引用 20

一句话总结

本文提出 PSEUDO mix，一种新型合成平行语料库，将真实语句与合成语句混合应用于翻译对的双方，从而仅使用合成数据即可有效训练神经机器翻译（NMT）系统。实验表明，PSEUDO mix 在双向翻译任务中实现了更优且更均衡的性能，优于源端或目标端生成的合成数据，尤其在使用真实平行数据进行微调后表现更佳。

ABSTRACT

Recent works have shown that synthetic parallel data automatically generated by translation models can be effective for various neural machine translation (NMT) issues. In this study, we build NMT systems using only synthetic parallel data. As an efficient alternative to real parallel data, we also present a new type of synthetic parallel corpus. The proposed pseudo parallel data are distinct from previous works in that ground truth and synthetic examples are mixed on both sides of sentence pairs. Experiments on Czech-German and French-German translations demonstrate the efficacy of the proposed pseudo parallel corpus, which shows not only enhanced results for bidirectional translation tasks but also substantial improvement with the aid of a ground truth real parallel corpus.

研究动机与目标

探究在低资源设置下，仅使用合成平行数据训练具有竞争力的 NMT 系统的可行性。
解决现有合成平行语料库中存在的不平衡与质量偏差问题，即翻译对的一侧完全为合成语句。
提出一种新型合成语料库格式，以提升模型在双向翻译任务中的鲁棒性与性能。
评估合成数据在与真实平行数据微调后提升 NMT 质量的有效性。
证明混合合成-真实数据可作为低资源机器翻译中真实平行语料库的可靠替代方案。

提出的方法

提出 PSEUDO mix，一种合成平行语料库，其中源端与目标端均混合包含真实与合成的句子对。
通过组合给定翻译方向的源端生成与目标端生成的合成平行数据来构建该语料库。
使用基于注意力机制的编码器-解码器架构 NMT 模型，在合成数据上进行训练。
采用两阶段训练策略：首先在仅合成数据上进行训练（Pseudo Only），然后使用真实平行数据进行微调（Real Fine-tuning）。
采用基于语义桥接的回译方法生成高质量合成数据，相较于标准回译更具可靠性。
通过标准测试集上的 BLEU 分数评估 Czech-German 与 French-German 翻译任务的性能。

实验结果

研究问题

RQ1当 NMT 模型仅在合成平行数据上进行训练时，是否能实现具有竞争力的性能？
RQ2在翻译对的双方均混合真实与合成语句是否能提升双向翻译中模型的平衡性与性能？
RQ3合成数据的质量如何影响在混合合成-真实语料库上训练的 NMT 模型性能？
RQ4使用真实平行数据进行微调在多大程度上能提升仅在合成数据上预训练的模型？
RQ5在仅使用合成数据与微调后的设置下，PSEUDO mix 是否能优于现有单向合成语料库（仅源端或仅目标端合成）？

主要发现

在所有仅使用合成数据训练的设置中，PSEUDO mix 在双向 Czech-German 翻译任务中取得了最高的 BLEU 分数，优于仅源端生成与仅目标端生成的合成语料库。
在 French-German 翻译任务中，PSEUDO mix 在法语到德语与德语到法语两个方向上的性能显著更均衡，优于单向合成语料库。
在使用真实平行数据微调后，PSEUDO mix 训练的模型在所有实验中均达到最高的 BLEU 分数，优于在源端生成、目标端生成以及混合真实-合成语料库上训练的模型。
当源端与目标端生成的合成数据质量差距较小时，PSEUDO mix 展现出最显著的性能提升，表明其在数据平衡环境下的有效性。
在 PSEUDO mix 上应用 Real Fine-tuning 策略优于从头开始使用合并的真实-合成语料库进行训练，证明了在真实数据微调前先在混合合成数据上进行预训练的价值。
即使 PSEUDO mix 初始性能低于高质量目标端生成语料库，其在微调后仍实现了最大的性能提升，显示出强大的可优化潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。