[论文解读] A Coverage Embedding Model for Neural Machine Translation.
本文提出了一种覆盖嵌入模型,通过门控循环单元动态更新覆盖向量,以减少神经机器翻译中的重复和遗漏。该方法通过端到端学习覆盖嵌入,在大规模中英翻译任务上提升了翻译质量,优于强基线系统。
In this paper, we enhance the attention-based neural machine translation by adding an explicit coverage embedding model to alleviate issues of repeating and dropping translations in NMT. For each source word, our model starts with a full coverage embedding vector, and then keeps updating it with a gated recurrent unit as the translation goes. All the initialized coverage embeddings and updating matrix are learned in the training procedure. Experiments on the large-scale Chineseto-English task show that our enhanced model improves the translation quality significantly on various test sets over the strong large vocabulary NMT system.
研究动机与目标
- 解决基于注意力的神经机器翻译中的重复和遗漏翻译问题。
- 通过在训练过程中学习覆盖嵌入,更明确地建模源词的覆盖情况。
- 提升大规模神经机器翻译任务的翻译质量。
- 集成一种可微分、可训练的覆盖机制,使其在解码过程中动态演化。
提出的方法
- 每个源词初始化为一个完整的覆盖嵌入向量,并随时间动态更新。
- 使用门控循环单元(GRU)在翻译过程中迭代更新覆盖嵌入。
- 初始覆盖嵌入和GRU更新矩阵在训练过程中联合学习。
- 将覆盖信息整合到注意力机制中,以指导对齐并减少冗余。
- 按源词更新覆盖嵌入,并用于调制注意力分布。
实验结果
研究问题
- RQ1显式覆盖建模能否减少NMT中的翻译重复和遗漏?
- RQ2可学习的、递归的覆盖机制与固定或启发式覆盖相比表现如何?
- RQ3覆盖嵌入的集成是否能提升大规模翻译任务的性能?
- RQ4基于GRU的更新机制在解码过程中在多大程度上提升了覆盖跟踪能力?
主要发现
- 所提模型在大规模中英翻译任务的多个测试集上显著提升了翻译质量。
- 该模型优于使用大词汇量的强基线NMT系统。
- 覆盖嵌入机制有效减少了重复和遗漏的翻译。
- 覆盖嵌入与更新矩阵的端到端学习带来了更优的对齐效果和泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。