Skip to main content
QUICK REVIEW

[论文解读] Learning to Parse and Translate Improves Neural Machine Translation

Akiko Eriguchi, Yoshimasa Tsuruoka|arXiv (Cornell University)|Feb 12, 2017
Natural Language Processing Techniques参考文献 30被引用 21
一句话总结

本文提出 NMT+RNNG,一种混合神经机器翻译模型,通过将循环神经网络语法(RNNG)整合到基于注意力的 NMT 解码器中,联合学习句法分析与翻译。通过在训练期间联合使用外部解析器进行翻译和解析动作预测,该模型在不增加推理成本的情况下提升了翻译质量,在四种语言对上均取得了显著的 BLEU 和 RIBES 提升,尤其在日语-英语和俄语-英语语言对上表现突出。

ABSTRACT

There has been relatively little attention to incorporating linguistic prior to neural machine translation. Much of the previous work was further constrained to considering linguistic prior on the source side. In this paper, we propose a hybrid model, called NMT+RNNG, that learns to parse and translate by combining the recurrent neural network grammar into the attention-based neural machine translation. Our approach encourages the neural machine translation model to incorporate linguistic prior during training, and lets it translate on its own afterward. Extensive experiments with four language pairs show the effectiveness of the proposed NMT+RNNG.

研究动机与目标

  • 探究通过句法分析引入语言先验是否能提升神经机器翻译性能。
  • 解决先前方法在推理阶段需要外部语言学工具的局限性。
  • 探索翻译与句法分析之间的多任务学习,以增强模型泛化能力。
  • 开发一种统一的、端到端可训练的模型,使模型在训练过程中隐式学习句法结构。
  • 评估所提方法在句法复杂度各异的多种语言对上的有效性。

提出的方法

  • 该模型将基于注意力的 NMT 解码器与循环神经网络语法(RNNG)相结合,联合预测目标句的词元及其句法解析动作。
  • RNNG 组件使用缓冲区(用于输出词元)、栈(用于句法结构)以及解析动作的历史记录,且 NMT 与 RNNG 组件共享词嵌入。
  • 在训练过程中,模型通过最大化目标翻译的似然性和正确解析动作序列的似然性进行优化。
  • 外部依存解析器(Andor et al., 2016)在训练期间提供标准解析动作作为监督信号,但在测试阶段无需使用。
  • 推理阶段采用束搜索,束宽在开发集上进行调优;训练采用随机梯度下降,配合梯度裁剪和学习率衰减。
  • RNNG 解码器在生成翻译的同时生成依存解析树,且将结束符(EOS)视为解析树中的根节点。

实验结果

研究问题

  • RQ1联合学习句法分析与翻译是否能提升神经机器翻译性能?
  • RQ2通过 RNNG 引入句法结构是否能在不依赖推理阶段外部解析器的前提下提升翻译质量?
  • RQ3RNNG 的各个组件(缓冲区、栈、动作预测)对整体翻译性能的贡献如何?
  • RQ4该方法的性能提升在句法结构各异的语言对上是否具有一致性?
  • RQ5模型是否能通过多任务训练隐式学习到有用的语言学先验,而无需显式引入语言学特征?

主要发现

  • NMT+RNNG 模型在四组语言对中的三组(JP-En、Ru-En、Cs-En)实现了统计显著的 BLEU 提升,其中 JP-En 语言对的 BLEU 分数提升了 0.96 点(从 17.88 提升至 18.84)。
  • 该模型在所有四组语言对上均提升了 RIBES 分数,其中 JP-En 的提升最大(72.25 对比 71.27),表明翻译的流畅性与充分性更好。
  • 消融实验表明,若移除 RNNG 的任一组件(尤其是栈),性能均显著下降,其中栈的影响最大。
  • 仅当 RNNG 的三个组件(缓冲区、栈、动作预测)全部存在时,模型才能达到最佳性能,证实了三者联合存在的必要性。
  • 所提方法在推理阶段未增加参数量或计算开销,保持了与标准 NMT 相同的效率。
  • 模型成功生成了正确的依存解析树,如定性示例所示,尽管观察到少量错误(如错误的依存关系)。”

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。