Skip to main content
QUICK REVIEW

[论文解读] Exploiting Cross-Sentence Context for Neural Machine Translation

Longyue Wang, Zhaopeng Tu|arXiv (Cornell University)|Apr 14, 2017
Natural Language Processing Techniques参考文献 18被引用 30
一句话总结

本文提出了一种跨句上下文感知的神经机器翻译模型,该模型使用层次化RNN将先前的源句汇总为全局上下文表征,随后通过初始化或辅助上下文机制将其整合到NMT中。该方法在大规模中英翻译任务上将翻译质量提升了最高达+2.1 BLEU分,显著减少了歧义和不一致错误。

ABSTRACT

In translation, considering the document as a whole can help to resolve ambiguities and inconsistencies. In this paper, we propose a cross-sentence context-aware approach and investigate the influence of historical contextual information on the performance of neural machine translation (NMT). First, this history is summarized in a hierarchical way. We then integrate the historical representation into NMT in two strategies: 1) a warm-start of encoder and decoder states, and 2) an auxiliary context source for updating decoder states. Experimental results on a large Chinese-English translation task show that our approach significantly improves upon a strong attention-based NMT system by up to +2.1 BLEU points.

研究动机与目标

  • 通过利用超越单句的文档级上下文,解决神经机器翻译中的歧义和不一致性问题。
  • 探究历史源端上下文是否能提升序列到序列NMT模型的翻译质量。
  • 开发一种灵活的框架,将跨句上下文整合到标准注意力机制NMT架构中,而无需对网络结构进行大规模修改。
  • 评估不同整合策略的效果——通过初始化编码器/解码器状态和使用带或不带门控的辅助上下文。
  • 证明全局上下文有助于解决词义消歧并维持跨句间的词汇一致性。

提出的方法

  • 采用层次化RNN架构:句级RNN处理每一句先前的源句,文档级RNN将句表示序列汇总为全局上下文向量D。
  • 将全局上下文向量D用于初始化编码器、解码器或两者,替代标准的零初始化,以提供带有先前文档上下文的热启动。
  • 引入一种辅助上下文机制,其中D与注意力机制中的标准句内上下文向量ci在解码过程中一并使用。
  • 实现一种上下文门机制,通过学习到的Sigmoid门动态控制每个解码步骤中全局上下文向量对解码器状态的贡献。
  • 联合训练模型,使用标准NMT目标函数,将跨句上下文整合进核心注意力机制编码器-解码器框架,无需修改其基本结构。
  • 为全局上下文和句内上下文分别使用独立的参数矩阵,以实现对两类上下文的独立控制,避免相互干扰。

实验结果

研究问题

  • RQ1建模跨句上下文是否能显著提升神经机器翻译的性能?
  • RQ2哪种整合策略——热启动编码器/解码器状态,还是使用辅助上下文——能带来最大性能提升?
  • RQ3引入上下文门是否能增强模型在解码过程中选择性使用全局上下文的能力?
  • RQ4跨句上下文在多大程度上减少了翻译输出中的歧义和不一致性?
  • RQ5当使用多个先前句子(K > 1)作为上下文时,模型表现如何?

主要发现

  • 所提出的模型在大规模中英翻译任务上,相较于强基线注意力机制NMT系统,翻译性能最高提升+2.1 BLEU分。
  • 带有上下文门的辅助上下文机制实现了最高性能提升,证明了对全局上下文整合进行动态控制的价值。
  • 仅使用热启动策略也提升了性能,表明使用文档级上下文初始化可提供有意义的归纳偏置。
  • 人工错误分析显示,该模型成功纠正了76%的歧义相关错误和75%的一致性相关错误(如词汇、时态、定指性等)。
  • 该模型有效减少了词义消歧中的歧义:例如,当前一句包含“贪官”时,能正确将“腐官”翻译为“corrupt officials”而非“enemy”。
  • 尽管性能有所提升,但模型也引入了约21%的新错误,表明在解决旧错误与生成新错误之间存在权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。