Skip to main content
QUICK REVIEW

[论文解读] Incorporating Discrete Translation Lexicons into Neural Machine Translation

Philip Arthur, Graham Neubig|arXiv (Cornell University)|Jun 7, 2016
Natural Language Processing Techniques参考文献 33被引用 35
一句话总结

本文提出将离散翻译词典整合到神经机器翻译(NMT)中,以改善低频内容词的翻译,利用注意力向量选择相关的词汇概率,并通过偏置或线性插值方式将其结合。该方法在训练收敛速度方面表现更优,BLEU得分提升2.0–2.3,NIST得分提升0.13–0.44。

ABSTRACT

Neural machine translation (NMT) often makes mistakes in translating low-frequency content words that are essential to understanding the meaning of the sentence. We propose a method to alleviate this problem by augmenting NMT systems with discrete translation lexicons that efficiently encode translations of these low-frequency words. We describe a method to calculate the lexicon probability of the next word in the translation candidate by using the attention vector of the NMT model to select which source word lexical probabilities the model should focus on. We test two methods to combine this probability with the standard NMT probability: (1) using it as a bias, and (2) linear interpolation. Experiments on two corpora show an improvement of 2.0-2.3 BLEU and 0.13-0.44 NIST score, and faster convergence time.

研究动机与目标

  • 解决NMT中低频内容词翻译错误这一长期存在的问题,此类错误会严重影响句子语义。
  • 利用离散翻译词典为罕见词提供明确且可靠的翻译概率。
  • 以一种不破坏端到端学习的方式,将词典概率整合到NMT中,与神经模型预测相辅相成。
  • 提升低资源和低频词场景下的翻译质量与训练收敛速度。
  • 在多种词典来源(包括词对齐和外部词典)上评估该方法。

提出的方法

  • 利用NMT模型的注意力向量,将词汇翻译概率转换为对下一个目标词的预测概率。
  • 在解码过程中,利用注意力向量动态选择应关注的源词的词汇概率。
  • 通过两种方式将词典概率与NMT模型输出相结合:(1) 作为Softmax层的可学习偏置;(2) 与NMT概率分布进行线性插值。
  • 通过训练数据上的词对齐、外部词典或两者结合的方式构建词典。
  • 将该方法应用于英日翻译任务,采用带有注意力机制的标准NMT架构。
  • 使用保留开发数据优化插值系数λ,尽管在基线实验中该系数在所有上下文中保持固定。

实验结果

研究问题

  • RQ1离散翻译词典能否提升NMT在低频内容词上的性能?
  • RQ2如何利用注意力信息有效整合词典概率到神经解码过程中?
  • RQ3通过偏置或线性插值方式结合词典概率,是否能获得优于标准NMT的翻译质量?
  • RQ4该方法能否提升低资源词的训练收敛速度与泛化能力?
  • RQ5该方法在更大、更复杂的数据集上是否具备可扩展性?

主要发现

  • 在两个英日翻译语料库上,该方法相比基线NMT模型实现了2.0–2.3 BLEU点的提升。
  • 模型在NIST得分上提升了0.13–0.44,表明内容词的翻译质量更高。
  • 基于偏置的整合方法优于线性插值,表明显式词汇约束比固定混合更有效。
  • 该方法减少了训练收敛时间,表明由于词典提供了更好的初始化和信号,优化速度更快。
  • 该方法在大规模数据集上表现出良好的可扩展性,在200万句的ASPEC数据集上,BLEU得分从20.82提升至22.66。
  • 定性分析证实,低频内容词的翻译得到改善,例如国家名称“Tunisia”等。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。