QUICK REVIEW

[论文解读] Memory-enhanced Decoder for Neural Machine Translation

Mingxuan Wang, Zhengdong Lu|arXiv (Cornell University)|Jun 7, 2016

Natural Language Processing Techniques参考文献 15被引用 25

一句话总结

本文提出 MemDec，一种用于神经机器翻译的增强记忆RNN解码器，通过引入一个固定大小、基于内容的外部记忆矩阵来扩展隐藏状态。通过在解码过程中实现动态读写，MemDec 提升了翻译的流畅性与准确性，在相同训练数据下，相较于 Moses 和 GroundHog，中文-英文翻译的 BLEU 分数分别提升了 5.3 和 4.8 点。

ABSTRACT

We propose to enhance the RNN decoder in a neural machine translator (NMT) with external memory, as a natural but powerful extension to the state in the decoding RNN. This memory-enhanced RNN decoder is called extsc{MemDec}. At each time during decoding, extsc{MemDec} will read from this memory and write to this memory once, both with content-based addressing. Unlike the unbounded memory in previous work\cite{RNNsearch} to store the representation of source sentence, the memory in extsc{MemDec} is a matrix with pre-determined size designed to better capture the information important for the decoding process at each time step. Our empirical study on Chinese-English translation shows that it can improve by $4.8$ BLEU upon Groundhog and $5.3$ BLEU upon on Moses, yielding the best performance achieved with the same training set.

研究动机与目标

通过在 RNN 解码器中引入外部记忆机制，提升神经机器翻译性能。
通过动态记忆读写，提升解码过程中信息选择与整合的有效性。
证明有界且可学习的记忆矩阵在序列到序列任务中优于标准注意力机制的 RNN 解码器。
研究预训练和记忆大小对翻译性能的影响。

提出的方法

MemDec 将一个固定大小的记忆矩阵作为 RNN 解码器状态的扩展，其中每一列作为一条记忆单元。
在每个解码步骤中，模型通过内容相关定位机制从记忆矩阵中读取并写入信息。
读取操作通过解码器状态与记忆向量之间的兼容性函数计算，随后进行加权求和。
写入操作通过可微分注意力机制实现，根据当前解码器状态调制更新过程。
记忆矩阵与 NMT 模型其余部分通过时间反向传播联合训练。
采用预训练初始化记忆矩阵，以改善优化与收敛性。

实验结果

研究问题

RQ1有界且可学习的外部记忆矩阵能否提升基于 RNN 的神经机器翻译性能？
RQ2对外部记忆矩阵进行基于内容的定位，如何影响模型关注相关源语言与目标语言信息的能力？
RQ3在 MemDec 框架中，记忆大小与预训练对翻译质量有何影响？
RQ4在中文-英文翻译任务中，MemDec 与 Moses 和 GroundHog 等强基线模型相比，BLEU 分数表现如何？

主要发现

在相同训练数据下，MemDec 在中文-英文翻译任务中相较于 Moses 提升 5.3 BLEU 点，相较于 GroundHog 提升 4.8 BLEU 点。
该模型对记忆大小具有强鲁棒性，仅使用四个记忆单元即可实现较标准 RNNsearch 提升 2 个以上 BLEU 点。
预训练显著提升性能，使平均 BLEU 分数较基线提升 1.11 点。
即使不使用预训练，MemDec 平均仍比基线高出 1.04 BLEU 点。
案例研究显示，与 RNNsearch 相比，MemDec 生成的翻译更流畅且语义更准确，尤其在处理复杂句式结构方面表现更优。
模型展现出更强的泛化能力与对语义上下文的把握能力，体现在对时间状语从句与条件状语从句的处理上表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。