Skip to main content
QUICK REVIEW

[论文解读] Modeling Source Syntax for Neural Machine Translation

Junhui Li, Deyi Xiong|arXiv (Cornell University)|May 2, 2017
Natural Language Processing Techniques参考文献 28被引用 25
一句话总结

本文通过将句法树线性化为结构标签序列,并利用三种基于RNN的架构(并行、分层和混合RNN)将源端句法显式建模引入神经机器翻译(NMT)中。混合RNN模型通过顺序地交错处理词和标签,在中英翻译任务上相比强基线模型显著提升了1.4 BLEU分数,证明显式句法建模可提升翻译准确率与句法一致性。

ABSTRACT

Even though a linguistics-free sequence to sequence model in neural machine translation (NMT) has certain capability of implicitly learning syntactic information of source sentences, this paper shows that source syntax can be explicitly incorporated into NMT effectively to provide further improvements. Specifically, we linearize parse trees of source sentences to obtain structural label sequences. On the basis, we propose three different sorts of encoders to incorporate source syntax into NMT: 1) Parallel RNN encoder that learns word and label annotation vectors parallelly; 2) Hierarchical RNN encoder that learns word and label annotation vectors in a two-level hierarchy; and 3) Mixed RNN encoder that stitchingly learns word and label annotation vectors over sequences where words and labels are mixed. Experimentation on Chinese-to-English translation demonstrates that all the three proposed syntactic encoders are able to improve translation accuracy. It is interesting to note that the simplest RNN encoder, i.e., Mixed RNN encoder yields the best performance with an significant improvement of 1.4 BLEU points. Moreover, an in-depth analysis from several perspectives is provided to reveal how source syntax benefits NMT.

研究动机与目标

  • 探究显式建模源端句法是否能提升神经机器翻译(NMT)性能。
  • 解决NMT系统未能尊重源端句法结构的问题,例如产生不连续或过度翻译的短语。
  • 探索在不依赖人工设计语言特征的前提下,将句法结构融入NMT的方法。
  • 评估从句法树导出的结构标签序列是否能提升翻译准确率与句法一致性。

提出的方法

  • 将源端短语结构句法树线性化为结构标签序列(如NP、VP、S),以表示句法结构。
  • 提出三种编码器变体:并行RNN(并行处理词与标签)、分层RNN(分两级层次处理)和混合RNN(在单个序列中交错处理词与标签)。
  • 通过联合学习词与句法标签的表示向量,将结构标签序列整合到NMT编码器中。
  • 以标准注意力机制的seq2seq NMT为基线,仅在编码器部分进行修改以引入句法信息。
  • 在中英翻译任务上端到端训练模型,采用注意力机制与词粒度嵌入。
  • 应用子词分词(如字节对编码)处理OOV词,并在需要时将结构标签扩展至子词单元。

实验结果

研究问题

  • RQ1显式建模源端句法是否能提升神经机器翻译性能?
  • RQ2不同句法集成架构设计(并行、分层、混合)对翻译质量有何影响?
  • RQ3引入句法结构是否能减少句法不一致现象,如名词短语的不连续或过度翻译?
  • RQ4句法结构对罕见词翻译与OOV处理有何影响?

主要发现

  • 所提出的三种句法感知编码器——并行RNN、分层RNN与混合RNN——在中英翻译任务上均优于基线NMT系统,提升了翻译准确率。
  • 混合RNN编码器表现最佳,在NIST MT 02–05测试集上实现了显著的1.4 BLEU分数提升。
  • 混合RNN模型在将源端罕见词翻译为非-UNK目标词方面更为有效,减少了OOV相关错误。
  • 分析表明,缺乏显式句法建模的NMT模型常无法尊重源端句法结构,导致翻译出现不连续或重复现象。
  • 研究证实,通过线性化句法树并联合学习词与标签表示,可有效利用源端句法信息。
  • 该方法与子词方法兼容,支持将结构标签扩展至子词单元,从而提升OOV处理能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。