QUICK REVIEW

[论文解读] Effective Approaches to Attention-based Neural Machine Translation

Minh-Thang Luong, Hieu Pham|arXiv (Cornell University)|Aug 17, 2015

Natural Language Processing Techniques参考文献 12被引用 751

一句话总结

本文提出了两种高效的注意力机制用于神经机器翻译：全局注意力，其关注所有源词；局部注意力，其一次聚焦于一组词。局部注意力模型相较于无注意力机制的系统取得了5.0 BLEU的提升，并在WMT’15英语到德语翻译任务中取得了25.9 BLEU的新SOTA结果，优于采用n-gram重排序的系统超过1.0 BLEU。

ABSTRACT

An attentional mechanism has lately been used to improve neural machine translation (NMT) by selectively focusing on parts of the source sentence during translation. However, there has been little work exploring useful architectures for attention-based NMT. This paper examines two simple and effective classes of attentional mechanism: a global approach which always attends to all source words and a local one that only looks at a subset of source words at a time. We demonstrate the effectiveness of both approaches over the WMT translation tasks between English and German in both directions. With local attention, we achieve a significant gain of 5.0 BLEU points over non-attentional systems which already incorporate known techniques such as dropout. Our ensemble model using different attention architectures has established a new state-of-the-art result in the WMT'15 English to German translation task with 25.9 BLEU points, an improvement of 1.0 BLEU points over the existing best system backed by NMT and an n-gram reranker.

研究动机与目标

探索超越现有方法的基于注意力机制的神经机器翻译（NMT）架构设计。
评估全局与局部注意力机制在大规模WMT基准任务中提升翻译质量的性能。
分析对齐质量与翻译行为，尤其在处理长句、命名实体和复杂句法结构方面。
通过集成模型结合注意力机制，建立英语到德语翻译的新SOTA结果。
比较不同对齐函数，并确定其在不同注意力架构中的有效性。

提出的方法

提出一种全局注意力机制，通过基于对齐得分的软注意力机制，对所有源词进行关注，计算上下文向量。
引入一种局部注意力机制，通过预测关注位置并应用高斯窗口，仅关注源词的一个小而动态的子集。
采用可微的软注意力机制，计算效率高，可通过反向传播进行训练，避免了硬注意力的不可微性。
使用编码器和解码器均采用LSTM或GRU单元的序列到序列RNN架构，将注意力机制集成到解码器隐藏状态计算中。
采用软注意力机制，其中上下文向量作为编码器隐藏状态的加权和计算得出，权重由解码器与编码器状态之间的兼容性函数生成。
通过组合多个注意力架构（全局、局部-m、局部-p）的预测结果，采用集成建模方法以提升鲁棒性与性能。

实验结果

研究问题

RQ1在英语到德语与德语到英语翻译任务中，全局与局部注意力机制的性能如何比较？
RQ2局部注意力是否能在保持计算效率的同时，实现优于全局注意力的翻译质量？
RQ3注意力机制在多大程度上改善了命名实体、长句与复杂句法结构的翻译？
RQ4不同对齐函数（如加法型、点积型）如何影响基于注意力机制的NMT模型性能？
RQ5注意力机制的对齐错误率（AER）与BLEU分数之间是否存在相关性？

主要发现

局部注意力机制相较于已包含Dropout及其他正则化技术的无注意力NMT系统，取得了显著的5.0 BLEU点提升。
结合全局与局部注意力机制的集成模型在WMT’15英语到德语翻译任务中取得了25.9 BLEU的新SOTA结果，优于此前最佳系统超过1.0 BLEU。
局部注意力模型的对齐错误率（AER）低于全局模型，其中局部-m的AER为0.34，局部-p为0.36，接近伯克利对齐器（AER = 0.32）的性能。
基于注意力的模型在命名实体（如'Miranda Kerr'、'Roger Dow'）的翻译以及复杂句法结构（如双重否定'not incompatible'）的处理上，显著优于无注意力模型。
注意力机制提升了长句的翻译质量，体现在样本翻译中对复杂多分句源句的更好处理能力。
对齐错误率（AER）与BLEU分数之间无强相关性，因为集成模型虽达到较好的AER，但并非BLEU最高，表明AER不能可靠地作为翻译质量的代理指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。