Skip to main content
QUICK REVIEW

[论文解读] Multilingual Neural Machine Translation with Task-Specific Attention

Graeme Blackwood, Miguel Ballesteros|arXiv (Cornell University)|Jun 8, 2018
Natural Language Processing Techniques参考文献 21被引用 53
一句话总结

论文为多语NMT引入了特定任务的注意力变体,以在包括零-shot在内的多种语言方向上提升翻译质量,同时仅带来较小的参数开销。

ABSTRACT

Multilingual machine translation addresses the task of translating between multiple source and target languages. We propose task-specific attention models, a simple but effective technique for improving the quality of sequence-to-sequence neural multilingual translation. Our approach seeks to retain as much of the parameter sharing generalization of NMT models as possible, while still allowing for language-specific specialization of the attention model to a particular language-pair or task. Our experiments on four languages of the Europarl corpus show that using a target-specific model of attention provides consistent gains in translation quality for all possible translation directions, compared to a model in which all parameters are shared. We observe improved translation quality even in the (extreme) low-resource zero-shot translation directions for which the model never saw explicitly paired parallel data.

研究动机与目标

  • 通过在保持其他参数共享的同时,为每个任务专门化注意力来提升完全多语言NMT的翻译质量。
  • 维持参数共享以利用跨语言泛化。
  • 在不为每对语言建立独立模型的前提下,提升零-shot和低资源方向。

提出的方法

  • 将注意力NMT扩展为三种任务特定注意力变体:目标特定、源特定和配对注意力。
  • 在训练和解码过程中,将注意力权重和偏置条件化为所选任务(语言或语言对)。
  • 用任务令牌增强编码器输入,以指示所需的目标语言。
  • 使用共享嵌入和通用子词表(80k BPE)对多语言方向的合并Europarl数据集进行训练。
  • 使用单一循环编码器/解码器并带有注意力,新增少量任务特定参数(每个任务一个注意力权重矩阵和一个偏置)。
  • 使用BLEU在领域内的开发集/测试集以及领域外的News Commentary进行评估,结果在五个随机种子上取平均。

实验结果

研究问题

  • RQ1相较于完全共享注意力,目标特定注意力是否提升多语言MT?
  • RQ2三种任务特定注意力变体在所有翻译方向(包括零-shot)上的表现如何?
  • RQ3对参数数量和训练效率有何影响?
  • RQ4改进在域外数据上是否鲁棒?
  • RQ5共享与目标特定变体的注意力可视化有何不同?

主要发现

  • 目标特定注意力在六个方向上大约比共享注意力的多语言模型带来约+0.5到+0.9的BLEU提升。
  • 零-shot 翻译在目标特定注意力下提升约+1.0到+1.5 BLEU,而源特定在零-shot方面效用较低。
  • 配对注意力相比共享注意力提升很少,可能因为每个任务数据较少且没有显式的零-shot处理。
  • 总体而言,使用目标特定注意力的多语言模型减少了多语言系统中相对于完全共享注意力的降级,在域外数据上表现稳健,在 nc-dev2007/nc-devtest2007 上获得 +0.6 到 +1.2 BLEU 的提升。
  • 该方法仅引入少量参数开销(目标特定模型增加一个 d×d 的权重矩阵和每个目标语言一个偏置,对四个目标语言约增加1.2%的参数)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。