Skip to main content
QUICK REVIEW

[论文解读] Zero-Resource Translation with Multi-Lingual Neural Machine Translation

Orhan Fırat, Baskaran Sankaran|arXiv (Cornell University)|Jun 13, 2016
Natural Language Processing Techniques参考文献 25被引用 35
一句话总结

本文提出了一种用于多语言神经机器翻译模型的新型微调策略,实现了零资源翻译——即在源语言与目标语言之间无直接平行语句的情况下进行翻译。通过生成伪平行数据并仅微调一组额外的注意力参数,该模型在翻译质量上达到了与在100万条平行语句上训练的单语言对模型相当的水平,优于基于桥梁的翻译方法,并展现出强大的数据效率。

ABSTRACT

In this paper, we propose a novel finetuning algorithm for the recently introduced multi-way, mulitlingual neural machine translate that enables zero-resource machine translation. When used together with novel many-to-one translation strategies, we empirically show that this finetuning algorithm allows the multi-way, multilingual model to translate a zero-resource language pair (1) as well as a single-pair neural translation model trained with up to 1M direct parallel sentences of the same language pair and (2) better than pivot-based translation strategy, while keeping only one additional copy of attention-related parameters.

研究动机与目标

  • 在源语言与目标语言之间无直接平行语料的前提下,利用多语言神经机器翻译模型实现零资源机器翻译。
  • 通过跨多种语言的正向语言迁移,提升低资源语言对的翻译质量。
  • 开发一种数据高效的微调策略,避免为零资源语言对获取大规模平行语料。
  • 与传统的单对单或基于桥梁的方法相比,评估多对一翻译策略在低资源环境下的有效性。
  • 探究伪平行数据是否能有效替代直接平行数据,用于零资源翻译中的微调。

提出的方法

  • 该方法采用一种多向、多语言神经机器翻译模型,所有语言对共享注意力机制,实现多种语言的联合学习。
  • 提出一种新颖的微调策略,利用模型自身的翻译能力生成伪平行句子,而无需为零资源语言对提供任何真实平行数据。
  • 微调过程仅向目标零资源语言对添加一组额外的注意力机制参数,最大限度减少参数增长。
  • 使用生成的伪平行数据对模型进行微调,有助于对齐零资源语言对的编码器与解码器表征。
  • 采用多对一翻译策略,即多个源语言被翻译为单一目标语言,相比单对单翻译性能更优。
  • 结合早期平均与晚期平均解码策略,进一步提升零资源语言对的翻译质量。

实验结果

研究问题

  • RQ1多语言神经机器翻译模型是否能在源语言与目标语言之间无任何直接平行语句的情况下实现零资源翻译?
  • RQ2当真实平行数据量极少时,使用模型自动生成的伪平行数据进行微调,是否比使用有限的真实数据表现更优?
  • RQ3在BLEU分数与数据效率方面,多对一翻译策略相较于单对单或基于桥梁的翻译策略表现如何?
  • RQ4是否仅通过添加一个额外的注意力参数副本,即可实现与在100万条平行语句上训练的单语言对模型相当的翻译质量?
  • RQ5零资源翻译的性能是否依赖真实平行数据的可用性与规模?在何种情况下伪数据更有效?

主要发现

  • 所提出的微调策略使多语言模型在零资源语言对上达到24.26的BLEU分数,与在100万条真实平行语句上训练的单语言对模型性能相当。
  • 即使零资源语言对无任何直接平行数据,该模型在翻译质量与数据效率方面仍优于基于桥梁的翻译策略。
  • 当真实平行语句数量极少(例如少于100万条)时,使用伪平行数据进行微调的效果优于仅使用有限的真实数据。
  • 多对一翻译策略显著优于单对单策略,尤其在低资源环境下,得益于更强的语言迁移与表征对齐。
  • 当直接平行数据稀缺时,伪平行数据微调带来的性能提升最为显著,表明此类数据比稀疏的真实数据更能反映模型的归纳偏好。
  • 早期平均与晚期平均解码策略的结合未带来进一步性能提升,表明伪源生成的上下文向量已包含足够的对齐信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。