Skip to main content
QUICK REVIEW

[论文解读] A Hybrid Approach for Improved Low Resource Neural Machine Translation using Monolingual Data

Idris Abdulmumin, Bashir Shehu Galadanci|arXiv (Cornell University)|Jan 1, 2020
Natural Language Processing Techniques参考文献 67被引用 2
一句话总结

本文提出一种混合自学习与回译方法,仅使用目标语单语数据,以提升低资源神经机器翻译(NMT)性能。通过在合成数据上迭代优化反向模型,并利用其生成更高质量的训练数据以优化正向模型,该方法在英语-德语NMT任务中优于标准回译与迭代回译,且模型复杂度与训练时间更低。

ABSTRACT

Many language pairs are low resource, meaning the amount and/or quality of available parallel data is not sufficient to train a neural machine translation (NMT) model which can reach an acceptable standard of accuracy. Many works have explored using the readily available monolingual data in either or both of the languages to improve the standard of translation models in low, and even high, resource languages. One of the most successful of such works is the back-translation that utilizes the translations of the target language monolingual data to increase the amount of the training data. The quality of the backward model which is trained on the available parallel data has been shown to determine the performance of the back-translation approach. Despite this, only the forward model is improved on the monolingual target data in standard back-translation. A previous study proposed an iterative back-translation approach for improving both models over several iterations. But unlike in the traditional back-translation, it relied on both the target and source monolingual data. This work, therefore, proposes a novel approach that enables both the backward and forward models to benefit from the monolingual target data through a hybrid of self-learning and back-translation respectively. Experimental results have shown the superiority of the proposed approach over the traditional back-translation method on English-German low resource neural machine translation. We also proposed an iterative self-learning approach that outperforms the iterative back-translation while also relying only on the monolingual target data and require the training of less models.

研究动机与目标

  • 解决低资源神经机器翻译(NMT)中的挑战,即平行数据不足限制了模型性能。
  • 克服标准回译的局限性,后者在低资源设置下对初始反向模型的质量依赖过强。
  • 通过混合自学习与回译策略,仅使用目标语单语数据,同时改进正向与反向模型。
  • 减少对源语单语数据的依赖,并最小化迭代方法中训练的模型数量。
  • 开发一种可行且可扩展的方法,适用于缺乏高质量评估系统或平行数据的低资源语言。

提出的方法

  • 使用目标语单语数据,通过初始反向模型(x ← y)生成合成平行语句。
  • 应用自学习对反向模型进行再训练,仅使用合成数据,从而迭代提升其质量。
  • 利用优化后的反向模型生成更高质量的合成数据,用于训练正向模型(x → y)。
  • 在自学习中引入质量评估(QE),以过滤并基于最可靠的合成翻译进行再训练。
  • 实现一种迭代自学习变体,避免使用质量评估,转而依赖对合成数据的连续优化。
  • 先在合成数据上进行预训练,再在真实平行数据上进行微调,以优化模型性能。

实验结果

研究问题

  • RQ1能否通过仅使用目标语单语数据的混合自学习与回译方法,在低资源NMT设置中提升NMT性能?
  • RQ2将自学习整合到回译流程中,如何影响合成数据的质量与最终翻译性能?
  • RQ3在低资源NMT中,无需质量评估的迭代自学习是否能达到与QE增强自学习相当的效果?
  • RQ4与迭代回译相比,所提方法能否在保持或提升性能的同时,减少所需模型数量与训练时间?
  • RQ5该混合方法是否适用于缺乏质量评估系统的低资源语言,具备可扩展性与可行性?

主要发现

  • 所提出的混合方法在英语-德语低资源NMT任务中优于标准回译,取得了更高的BLEU分数。
  • 采用质量评估的迭代自学习方法取得了最佳结果,证明筛选高质量合成翻译可有效提升模型性能。
  • 即使不使用质量评估,迭代自学习方法仍能达到与QE增强版本相当的性能,证明其在低资源设置下的可行性。
  • 简化版的迭代自学习回译方法相比迭代回译,显著减少了所需模型数量与训练时间。
  • 在合成数据上预训练,随后在真实数据上微调,被证明是最有效的模型优化策略。
  • 该方法仅使用目标语单语数据,成功优化了正向与反向模型,证明在低资源翻译场景中具有有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。