Skip to main content
QUICK REVIEW

[论文解读] Coverage Embedding Models for Neural Machine Translation

Haitao Mi, Baskaran Sankaran|arXiv (Cornell University)|May 10, 2016
Natural Language Processing Techniques参考文献 15被引用 35
一句话总结

该论文提出覆盖嵌入模型,通过可学习的、动态的嵌入向量追踪源词的翻译状态,以改进基于注意力机制的神经机器翻译。通过使用GRU或基于注意力权重的减法方式更新这些嵌入向量,模型减少了翻译中的重复和遗漏问题,在中英翻译任务上,BLEU得分相比强大的大词汇量NMT基线模型最高提升了2.6分。

ABSTRACT

In this paper, we enhance the attention-based neural machine translation (NMT) by adding explicit coverage embedding models to alleviate issues of repeating and dropping translations in NMT. For each source word, our model starts with a full coverage embedding vector to track the coverage status, and then keeps updating it with neural networks as the translation goes. Experiments on the large-scale Chinese-to-English task show that our enhanced model improves the translation quality significantly on various test sets over the strong large vocabulary NMT system.

研究动机与目标

  • 解决基于注意力机制的神经机器翻译(NMT)中因缺乏覆盖追踪而导致的翻译重复和遗漏问题。
  • 通过将传统统计机器翻译(SMT)的覆盖向量适配至NMT中的软注意力机制,克服其局限性。
  • 提出一种新颖的覆盖嵌入机制,为每个源词维护一个独特的、可学习的向量,而非使用二值标志。
  • 通过将覆盖嵌入整合到注意力机制中,提升大规模中英翻译任务的翻译质量。
  • 证明覆盖嵌入可减少NMT系统中的短语重复现象,并提升对齐准确性。

提出的方法

  • 在翻译开始时,为每个源词分配一个完整的、初始化的覆盖嵌入向量,该向量与SMT中的二值覆盖向量不同。
  • 在每个解码步骤中,使用GRU或基于当前注意力权重的直接向量减法,更新每个源词的覆盖嵌入。
  • 将每个源词的覆盖嵌入作为额外输入整合到注意力评分函数中,修改注意力能量计算方式。
  • 采用基于GRU的更新机制,建模覆盖状态的演化过程,使模型能够学习如何根据注意力模式调整覆盖状态。
  • 应用基于减法的更新规则,当某个源词获得较高注意力时,其覆盖嵌入会相应减少,模拟翻译完成状态。
  • 在+Obj.变体中引入辅助目标函数,进一步正则化覆盖学习,为GRU和减法组件分别设置独立的超参数。

实验结果

研究问题

  • RQ1可学习的、连续的覆盖嵌入是否能有效减少基于注意力机制的NMT中的翻译重复和遗漏?
  • RQ2在GRU-based与减法-based的覆盖更新方式之间,哪种对翻译质量与对齐准确性的影响更优?
  • RQ3与标准NMT系统相比,覆盖嵌入在多大程度上提升了对齐F1得分?
  • RQ4在大规模中英翻译任务中,覆盖嵌入的集成是否带来了BLEU得分的统计显著提升?
  • RQ5随着训练数据规模的增加,覆盖嵌入是否能有效缓解NMT中的重复问题?

主要发现

  • 在500万训练数据集上,U GRU变体相比大词汇量NMT(LVNMT)基线,将平均(Ter-BLEU)/2得分提升了1.3分。
  • U GRU + U Sub联合方法在平均(Ter-BLEU)/2得分上达到最优的13.14分,相比LVNMT提升了2.6分。
  • 在1100万训练数据集上,U GRU模型相比LVNMT在(Ter-BLEU)/2得分上实现了接近1分的提升,表明其在更强基线下的有效性。
  • U GRU + U Sub模型在人工对齐的测试集上,将对齐F1得分提升了2.2分,达到46.47分。
  • 在MT06测试集上,重复短语(≥4个词)的数量从LVNMT的209个减少到U GRU + U Sub的50个,表明重复现象得到显著缓解。
  • +Obj.变体进一步将重复短语数量减少至MT06上的47个,表明额外的正则化可进一步增强覆盖学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。