[论文解读] Joint Training for Neural Machine Translation Models with Monolingual Data
本文提出了一种用于神经机器翻译(NMT)的联合训练框架,通过迭代优化类似EM的半监督方法,利用源语言和目标语言的单语数据,持续改进双向NMT模型——即从源到目标的翻译模型与从目标到源的翻译模型。该方法利用每个模型输出的翻译概率作为权重,对噪声伪并行数据进行过滤,显著提升了中文-英文和英文-德文翻译任务的性能,超越了如回译等强基线方法。
Monolingual data have been demonstrated to be helpful in improving translation quality of both statistical machine translation (SMT) systems and neural machine translation (NMT) systems, especially in resource-poor or domain adaptation tasks where parallel data are not rich enough. In this paper, we propose a novel approach to better leveraging monolingual data for neural machine translation by jointly learning source-to-target and target-to-source NMT models for a language pair with a joint EM optimization method. The training process starts with two initial NMT models pre-trained on parallel data for each direction, and these two models are iteratively updated by incrementally decreasing translation losses on training data. In each iteration step, both NMT models are first used to translate monolingual data from one language to the other, forming pseudo-training data of the other NMT model. Then two new NMT models are learnt from parallel data together with the pseudo training data. Both NMT models are expected to be improved and better pseudo-training data can be generated in next step. Experiment results on Chinese-English and English-German translation tasks show that our approach can simultaneously improve translation quality of source-to-target and target-to-source models, significantly outperforming strong baseline systems which are enhanced with monolingual data for model training including back-translation.
研究动机与目标
- 解决在平行数据稀缺的低资源或特定领域NMT设置中性能下降的问题。
- 超越现有方法(如回译)对源语言和目标语言单语数据的利用效率。
- 开发一种联合优化框架,同时提升从源到目标和从目标到源的NMT模型。
- 降低在数据增强过程中生成的低质量伪并行句对带来的负面影响。
- 通过半监督学习过程,利用彼此的反馈实现NMT模型的迭代优化。
提出的方法
- 该方法从两个方向(A:源到目标,B:目标到源)在平行数据上预训练两个NMT模型开始。
- 在每次迭代中,模型B将目标侧的单语句子翻译为源语言,为模型A生成伪并行数据;同时,模型A也将源侧的单语句子翻译为目标语言,为模型B生成伪数据。
- 通过生成模型输出的翻译概率对生成的伪句对进行加权,以降低低置信度、噪声较大的翻译的影响。
- 在每次迭代中,使用原始平行数据和加权后的伪数据,联合微调两个模型,实现两个模型的同步优化。
- 该过程遵循联合EM-like优化:E步估计单语数据的翻译期望,M步使用平滑后的概率更新模型参数。
- 迭代循环持续进行,直到收敛,且每一步预期能带来更优的模型和更高质量的伪数据。
实验结果
研究问题
- RQ1是否可以通过联合训练双向NMT模型并利用双方向的单语数据,实现优于单向方法的翻译性能?
- RQ2是否可以通过来自两个模型的反馈进行迭代优化,降低噪声伪并行数据的负面影响?
- RQ3是否可以利用翻译概率作为加权机制,提升NMT中合成训练数据的质量?
- RQ4与标准回译相比,该联合EM-based优化框架在BLEU分数提升方面表现如何?
- RQ5该方法是否能有效应用于低资源和高资源翻译任务?
主要发现
- 所提方法在中文-英文和英文-德文翻译任务上显著优于强基线方法,包括回译。
- 在中文-英文任务中,该方法在C→E上达到38.23的BLEU分数,在E→C上达到19.10,分别优于RNNSearch+M基线0.40和0.23个BLEU点。
- 在英文-德文任务中,该方法在D→E上达到27.07的BLEU分数,在E→D上达到22.20,分别优于RNNSearch+M基线0.26和0.31个BLEU点。
- 迭代过程带来持续改进:对于一个中文句子,翻译质量从第0轮的有缺陷输出,提升至第4轮接近参考译文质量的输出。
- 利用模型概率作为权重,有效抑制了低置信度翻译,减少了合成数据中的噪声,提升了整体训练稳定性。
- 联合EM优化框架实现了两个模型之间的相互提升,形成反馈回路,同步增强两个翻译方向的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。