Skip to main content
QUICK REVIEW

[论文解读] Enabling Multi-Source Neural Machine Translation By Concatenating Source Sentences In Multiple Languages

Raj Dabre, Fabien Cromierès|arXiv (Cornell University)|Feb 20, 2017
Natural Language Processing Techniques参考文献 23被引用 22
一句话总结

本文提出了一种简单、基于预处理的多源神经机器翻译(MSNMT)方法,将来自多种语言的源句拼接成单一输入序列,使任何标准NMT模型都能在不修改架构的情况下利用多语言并行数据。该方法在使用五种源语言时实现了最高6 BLEU的提升,并表明NMT系统会自然地更多关注语言上更相似的源语言,验证了该方法的有效性与可解释性。

ABSTRACT

In this paper, we explore a simple solution to "Multi-Source Neural Machine Translation" (MSNMT) which only relies on preprocessing a N-way multilingual corpus without modifying the Neural Machine Translation (NMT) architecture or training procedure. We simply concatenate the source sentences to form a single long multi-source input sentence while keeping the target side sentence as it is and train an NMT system using this preprocessed corpus. We evaluate our method in resource poor as well as resource rich settings and show its effectiveness (up to 4 BLEU using 2 source languages and up to 6 BLEU using 5 source languages). We also compare against existing methods for MSNMT and show that our solution gives competitive results despite its simplicity. We also provide some insights on how the NMT system leverages multilingual information in such a scenario by visualizing attention.

研究动机与目标

  • 仅通过预处理实现端到端的多源神经机器翻译,无需修改NMT架构或训练过程。
  • 在低资源和高资源设置下,针对多种多语言语料库(ILCI、IWSLT、UN)评估该方法。
  • 分析翻译质量与多源场景下语言相似度之间的相关性。
  • 从性能和模型复杂度两个方面,将所提方法与现有MSNMT方法(多编码器和集成)进行比较。
  • 通过注意力可视化研究NMT模型在拼接输入中对不同源语言的关注方式,特别是与语言亲缘性的关系。

提出的方法

  • 该方法将来自N种不同语言的对应源句拼接成一个长的多语言输入句子,同时保持目标句不变。
  • 由此生成的并行语料库可使用任何标准NMT系统进行训练,将拼接后的输入视为单一源序列。
  • 不对NMT模型进行任何架构修改;该方法与任何基于注意力机制或层次化的NMT架构兼容。
  • 该方法避免了训练多个模型或学习集成函数,因此比现有MSNMT方法更简单且参数效率更高。
  • 通过注意力可视化分析模型在拼接输入中对不同源语言的关注分布。
  • 使用语言相似度评分(例如与目标语言的相似度)来解释注意力模式,并将其与翻译性能提升相关联。

实验结果

研究问题

  • RQ1仅通过一个简单的预处理步骤——拼接多语言源句——是否能实现有效的多源NMT,而无需修改NMT架构?
  • RQ2翻译质量如何随源语言数量以及与目标语言的相似度而变化?
  • RQ3与现有MSNMT方法(如多编码器和集成)相比,该方法在性能和参数效率方面表现如何?
  • RQ4NMT模型在拼接输入中对不同源语言的关注程度如何?这种关注是否受语言亲缘性的影响?
  • RQ5能否利用拼接输入中的注意力模式提取多语言词汇对应关系?

主要发现

  • 该方法在使用两种源语言时实现最高4 BLEU的提升,在使用五种源语言时实现最高6 BLEU的提升,显著提高了翻译质量。
  • 在ILCI语料库中,使用五种源语言(孟加拉语、英语、马拉地语、泰米尔语、泰卢固语)翻译为印地语时,模型实现了6 BLEU的提升,其中对语言上更接近的马拉地语和泰卢固语的关注度最高。
  • 模型在未使用显式分隔符的情况下,学会了识别拼接输入中的句子边界,注意力模式与语言转换位置对齐。
  • 注意力可视化显示,模型更关注与目标语言具有更高词汇相似度的语言(例如,对于印地语,马拉地语和泰卢固语),而对语言差异较大的英语和泰米尔语则关注较少。
  • 在UN语料库中(法语和西班牙语翻译为英语),模型对西班牙语的关注度更高,这与西班牙语-英语翻译的BLEU分数(高出9分)更高相一致。
  • 该方法在性能上优于或匹配当前最先进方法(多编码器和集成),同时在双源模型中参数量不足其一半,展现出更优的参数效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。