QUICK REVIEW

[论文解读] Temporal Attention Model for Neural Machine Translation

Baskaran Sankaran, Haitao Mi|arXiv (Cornell University)|Aug 9, 2016

Natural Language Processing Techniques参考文献 21被引用 52

一句话总结

本文提出了一种用于神经机器翻译的时序注意力模型，通过在时间上记忆和调制对齐关系，增强注意力机制，减少重复和遗漏错误。该方法在基线神经机器翻译模型上提升了1.5 BLEU分数，并在两个语料对上无需集成即可超越强基线统计机器翻译系统。

ABSTRACT

Attention-based Neural Machine Translation (NMT) models suffer from attention deficiency issues as has been observed in recent research. We propose a novel mechanism to address some of these limitations and improve the NMT attention. Specifically, our approach memorizes the alignments temporally (within each sentence) and modulates the attention with the accumulated temporal memory, as the decoder generates the candidate translation. We compare our approach against the baseline NMT model and two other related approaches that address this issue either explicitly or implicitly. Large-scale experiments on two language pairs show that our approach achieves better and robust gains over the baseline and related NMT approaches. Our model further outperforms strong SMT baselines in some settings even without using ensembles.

研究动机与目标

解决神经机器翻译中的注意力缺陷问题，如翻译中重复的源端片段和内容遗漏。
通过编码时序对齐历史，提升序列到序列翻译中注意力的鲁棒性和充分性。
开发一种自然支持一对一和多对多对齐的机制，且不增加参数量。
在翻译质量与对齐准确度上超越现有的神经机器翻译方法（如覆盖嵌入和局部注意力）。
在无需集成的情况下，实现与强基线统计机器翻译系统相当或更优的最先进性能。

提出的方法

在解码器每个时间步记忆注意力对齐权重，形成过去对齐关系的时序记忆。
利用累积的时序对齐历史来调制当前注意力分布，防止对已注意过的词语过度关注。
将时序记忆与源端标注信息及解码器隐藏状态结合，计算动态、上下文感知的注意力权重。
通过重用现有注意力计算并引入记忆增强机制，避免引入额外参数。
通过允许注意力在数据支持下聚焦于多个源端片段，实现高生育率词建模（多对多对齐）。
使用标准神经机器翻译目标函数与交叉熵损失进行端到端训练。

实验结果

研究问题

RQ1对齐关系的时序记忆能否提升注意力的稳定性并减少神经机器翻译中的重复问题？
RQ2建模对齐历史是否能提升对源端内容的覆盖度并减少遗漏错误？
RQ3与覆盖嵌入和局部注意力相比，所提出的时序注意力机制在翻译质量与对齐准确度方面表现如何？
RQ4该模型能否在无需集成的情况下实现与强基线统计机器翻译系统相当或更优的性能？
RQ5时序注意力机制在人工标注数据上的对齐F1分数上提升了多少？

主要发现

在德语-英语语料对上，所提出的时序注意力模型相比基线神经机器翻译模型，BLEU分数提升了1.5分。
在英语-日语设置中，模型取得28.70的BLEU分数和0.7232的Ribes分数，优于基线LVNMT模型。
与局部注意力基线相比，模型将重复短语减少了40%，平均重复长度从7.27个词降至3.47个词。
在中文-英语测试集上，模型取得46.71的F1对齐分数，相比基线神经机器翻译模型提升2.5分，相比覆盖嵌入模型提升1.5分。
在BLEU分数上，模型超越了强基线统计机器翻译系统（如MT06和MT08-Web），在部分测试集上绝对提升达3分。
时序注意力系统的集成模型最高可实现2分的BLEU提升，比统计机器翻译系统高出约2 BLEU分。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。