QUICK REVIEW

[论文解读] Does Neural Machine Translation Benefit from Larger Context?

Sébastien Jean, Stanislas Lauly|arXiv (Cornell University)|Apr 17, 2017

Natural Language Processing Techniques参考文献 2被引用 128

一句话总结

论文为神经机器翻译添加更大上下文的编码器/注意力，以纳入周围句子；在小规模语料上在 BLEU、RIBES 和代词预测方面有改进，但在较大训练数据下收益基本消失。

ABSTRACT

We propose a neural machine translation architecture that models the surrounding text in addition to the source sentence. These models lead to better performance, both in terms of general translation quality and pronoun prediction, when trained on small corpora, although this improvement largely disappears when trained with a larger corpus. We also discover that attention-based neural machine translation is well suited for pronoun prediction and compares favorably with other approaches that were specifically designed for this task.

研究动机与目标

研究更大话语上下文是否会提升神经机器翻译质量。
将基于注意力的 NMT 模型扩展为对相邻句子进行编码和关注。
评估更大上下文对标准翻译指标和代词预测任务的影响。
评估训练数据规模如何调节更大上下文的收益。

提出的方法

将 Bahdanau 风格的注意力 NMT 扩展为增加的上下文编码器和用于周围句子的第二个注意力机制。
计算两种源表示：主源注意力 (s_t') 和上下文注意力 (c_t')，分别使用 h_t 和 h_t^c。
更新解码器，在下一个词分布中同时以 s_t' 和 c_t' 为条件。
使用 Adadelta 的对数似然训练并在 BLEU 上进行早停。
使用 BLEU 和 RIBES 评估翻译质量，以及跨语言代词预测的宏平均召回率。
展示在不同训练集规模（5%、10%、20%、40%、100%）下的结果。

实验结果

研究问题

RQ1将前后源句子纳入是否能提升翻译质量（以 BLEU 和 RIBES 测量）？
RQ2更大上下文的 MT 是否在跨语言代词任务上提升代词预测表现？
RQ3训练语料规模如何影响更大上下文建模的收益？
RQ4代词预测性能是否由于更大上下文，还是其他因素如词形还原？

主要发现

数据集 / 指标	5%	10%	20%	40%	100%	备注
BLEU En-Fr (NMT)	27.6	32.7	35.7	38.2	39.9	N/A
BLEU En-Fr (LC-NMT)	28.8	33.9	36.7	38.6	39.0	N/A
BLEU En-De (NMT)	16.3	19.8	22.1	24.3	25.6	N/A
BLEU En-De (LC-NMT)	17.4	20.9	22.7	23.9	25.1	N/A
RIBES En-Fr (NMT)	82.0	84.0	85.0	85.9	86.9	N/A
RIBES En-Fr (LC-NMT)	82.4	84.8	85.6	86.0	86.4	N/A
RIBES En-De (NMT)	76.6	78.9	80.4	81.4	81.7	N/A
RIBES En-De (LC-NMT)	77.3	79.5	80.6	81.5	81.7	N/A

在小到中等数据量时，更大上下文的 NMT 通常在 BLEU 和 RIBES 上超过普通 NMT。
随着训练数据增加到更大语料，上下文建模的优势减弱并基本消失。
在 IWSLT En-De（非词形还原，大约是代词语料的 10%），LC-NMT 仍然优于 NMT，表明收益不仅限于词形还原。
在较小训练集的代词任务上，LC-NMT 的代词预测宏平均召回率高于普通 NMT。
LC-NMT 的代词预测性能接近或赶上顶级竞赛系统，显示在有针对性的评估中具有对话语感知 MT 的潜力。
总体而言，上下文增益适中且依赖上下文，表明可能需要更聚焦的评估指标来捕捉话语效应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。