Skip to main content
QUICK REVIEW

[论文解读] Neural Machine Translation with Supervised Attention

Lemao Liu, Masao Utiyama|arXiv (Cornell University)|Sep 14, 2016
Natural Language Processing Techniques参考文献 29被引用 27
一句话总结

本文提出了一种用于神经机器翻译的有监督注意力机制(SA-NMT),通过使用GIZA++等传统对齐工具生成的对齐结果,以有监督的方式训练注意力机制,从而提升注意力对齐的准确性。在两个中英翻译任务上的实验表明,SA-NMT通过引入有监督对齐指导,相比强基线模型实现了高达2.5个BLEU的显著提升,在低资源设置下优于标准NMT和Moses模型。

ABSTRACT

The attention mechanisim is appealing for neural machine translation, since it is able to dynam- ically encode a source sentence by generating a alignment between a target word and source words. Unfortunately, it has been proved to be worse than conventional alignment models in aligment accuracy. In this paper, we analyze and explain this issue from the point view of re- ordering, and propose a supervised attention which is learned with guidance from conventional alignment models. Experiments on two Chinese-to-English translation tasks show that the super- vised attention mechanism yields better alignments leading to substantial gains over the standard attention based NMT.

研究动机与目标

  • 为解决标准注意力机制在神经机器翻译中与传统对齐模型相比对齐准确性较差的问题。
  • 探究为何NMT中的无监督注意力机制在重排任务中表现不如传统对齐模型。
  • 通过引入如GIZA++或fast_align等现成对齐工具提供的有监督对齐信号,提升NMT性能。
  • 探索将注意力与翻译联合训练,并施加对齐监督,是否能同时提升对齐质量与翻译性能。
  • 证明注意力的有监督训练(而非仅翻译的有监督)能带来更优的梯度流动与模型优化。

提出的方法

  • 使用传统对齐工具(如GIZA++或fast_align)在训练双语语料上预先计算词对齐。
  • 在联合训练过程中,将预先计算的对齐结果作为注意力机制的监督信号。
  • 引入一个联合训练目标,结合翻译损失与对齐损失,并通过超参数λ平衡两者。
  • 修改标准NMT架构,使注意力权重αt被视为可观察的(有监督的)变量,而非隐藏变量。
  • 在损失函数中加入正则化项,促使预测的注意力权重与传统对齐工具生成的黄金对齐结果相匹配。
  • 端到端联合训练整个模型,同时施加翻译与对齐监督,从而改善梯度流动与对齐准确性。

实验结果

研究问题

  • RQ1为何NMT中的标准注意力机制对齐准确性低于传统对齐模型?
  • RQ2能否利用传统对齐模型的监督信号提升NMT中注意力对齐的质量?
  • RQ3与无监督注意力相比,联合训练注意力并施加对齐监督是否能带来更好的翻译性能?
  • RQ4有监督注意力如何影响训练动态,特别是对缓解梯度消失问题的影响?
  • RQ5所提方法是否能在高资源与低资源翻译设置下均实现显著性能提升?

主要发现

  • 所提出的SA-NMT模型在大规模中英翻译任务上相比最强基线模型实现了2.5个BLEU点的提升。
  • 在低资源中英翻译任务上,SA-NMT比标准注意力NMT高出约5个BLEU点。
  • SA-NMT中注意力机制的对齐错误率(AER)相比标准NMT显著降低,表明词对齐质量更高。
  • 通过施加对齐监督的联合训练改善了梯度流动,因为对齐监督位于网络中间而非顶层。
  • 尽管仅使用3万句对,SA-NMT在低资源设置下缩小了与Moses的性能差距,优于以往需要更大语料的方法。
  • 该方法具有通用性,可应用于任何基于注意力的NMT模型,因其作为训练目标中的正则化项实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。