Skip to main content
QUICK REVIEW

[论文解读] Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder

Huadong Chen, Shujian Huang|arXiv (Cornell University)|Jul 18, 2017
Natural Language Processing Techniques参考文献 15被引用 33
一句话总结

本文提出一种语法感知的神经机器翻译模型,通过在编码器和解码器中显式引入源端句法树结构来提升性能。通过采用双向树编码器以获得更丰富的上下文表征,并引入树覆盖注意力机制以引导短语连贯性,该模型在标准注意力NMT基础上实现+3.54 BLEU的提升,在结合Tree-LSTM与覆盖机制的强基线模型基础上实现+1.90 BLEU的提升,尤其在长序列翻译任务中表现显著。

ABSTRACT

Most neural machine translation (NMT) models are based on the sequential encoder-decoder framework, which makes no use of syntactic information. In this paper, we improve this model by explicitly incorporating source-side syntactic trees. More specifically, we propose (1) a bidirectional tree encoder which learns both sequential and tree structured representations; (2) a tree-coverage model that lets the attention depend on the source-side syntax. Experiments on Chinese-English translation demonstrate that our proposed models outperform the sequential attentional model as well as a stronger baseline with a bottom-up tree encoder and word coverage.

研究动机与目标

  • 通过在编码器和解码器中显式整合源端句法树结构,提升神经机器翻译性能。
  • 解决传统序列模型在捕捉长距离依赖关系和短语连贯性方面的局限性。
  • 通过结合自底向上与自顶向下的树编码方式,增强表征学习,获得更丰富的句法上下文信息。
  • 利用树覆盖机制引导解码器生成,尊重句法结构,避免重复翻译。
  • 证明句法结构的引入可提升翻译质量,尤其在长而复杂的句子中表现更优。

提出的方法

  • 提出一种双向树编码器,结合自底向上与自顶向下编码方式,为句法树中每个节点生成更丰富的表征。
  • 使用Tree-GRUs建模树结构表征,其中自顶向下编码从根节点向叶节点传播信息。
  • 引入树覆盖模型,将覆盖机制扩展至句法子树,而不仅限于单个词。
  • 采用两阶段训练策略:首先预训练自底向上的编码器,随后使用随机初始化的自顶向下编码器对完整双向编码器进行微调。
  • 在基于注意力的序列到序列框架中,集成语法感知编码器与树覆盖解码器。
  • 使用预计算的句法树(例如,来自基于转移的解析器)作为输入,以指导编码与解码过程。

实验结果

研究问题

  • RQ1在编码器中显式引入句法树结构是否能提升神经机器翻译的表征学习能力?
  • RQ2通过双向树编码器引入自顶向下的句法上下文,是否能优于单向树编码器,带来更优的翻译性能?
  • RQ3在解码器中引入树覆盖机制是否能提升短语连贯性并减少重复翻译?
  • RQ4同时在编码器与解码器中引入句法信息,是否比仅在一个组件中使用句法信息带来更大性能提升?
  • RQ5语法感知能力在具有复杂句法依赖关系的长句翻译中表现如何?

主要发现

  • 双向树编码器在中英翻译任务中,相比标准序列注意力NMT模型,提升+3.54 BLEU。
  • 与结合Tree-LSTM与词覆盖机制的强基线相比,模型实现+1.90 BLEU的性能提升。
  • 性能增益在长度超过20个词的句子中最为显著,尤其在长度超过50个词的句子中提升最大。
  • 树覆盖模型在保留短语连贯性方面持续优于词覆盖模型,显著提升翻译质量。
  • 两阶段训练策略使双向树编码器的训练更加稳定,该模型从随机初始化训练难度较高。
  • 将覆盖模型扩展至包含邻近节点上下文并未提升性能,甚至使BLEU降低0.2分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。