Skip to main content
QUICK REVIEW

[论文解读] THUMT: An Open Source Toolkit for Neural Machine Translation

Jiacheng Zhang, Yanzhuo Ding|arXiv (Cornell University)|Jun 20, 2017
Natural Language Processing Techniques参考文献 15被引用 88
一句话总结

THUMT 是一个基于 Theano 的开源神经机器翻译工具包,支持 MLE、MRT 和 SST 培训标准,含可视化工具和未知词替换,展现出与中英翻译竞争力的结果。

ABSTRACT

This paper introduces THUMT, an open-source toolkit for neural machine translation (NMT) developed by the Natural Language Processing Group at Tsinghua University. THUMT implements the standard attention-based encoder-decoder framework on top of Theano and supports three training criteria: maximum likelihood estimation, minimum risk training, and semi-supervised training. It features a visualization tool for displaying the relevance between hidden states in neural networks and contextual words, which helps to analyze the internal workings of NMT. Experiments on Chinese-English datasets show that THUMT using minimum risk training significantly outperforms GroundHog, a state-of-the-art toolkit for NMT.

研究动机与目标

  • 激励开源开发具备灵活训练准则的 NMT 工具。
  • 提供一个基于 Theano 的编码器-解码器注意力 NMT 实现。
  • 通过利用层级相关传播的可视化工具实现对 NMT 内部的分析。
  • 展示在中英翻译任务中,不同训练准则与优化器下的性能和训练时间权衡。
  • 展示半监督学习和最小化风险训练对翻译质量的益处。

提出的方法

  • 在 Theano 上实现标准的带注意力的编码器-解码器 NMT。
  • 支持三种训练准则:最大似然估计(MLE)、最小风险训练(MRT)和半监督训练(SST)。
  • 提供优化选项:SGD、Adadelta 和 Adam(为避免 NaN 进行修改)。
  • 提供基于层次相关传播的可视化工具来分析翻译。
  • 使用 FastAlign 构建双语词典以进行未知词替换。
  • 对比 THUMT 与 GroundHog 在中英翻译上的表现,并报告 BLEU 与训练时间指标。

实验结果

研究问题

  • RQ1THUMT 是否在中英翻译中对比领先的开源 NMT 工具获得具有竞争力的 BLEU 分数?
  • RQ2相较于标准 MLE,MRT 和 SST 对翻译质量的影响是什么?
  • RQ3不同优化器对 THUMT 的翻译性能和训练效率有何影响?
  • RQ4NMT 内部的可视化是否有助于理解翻译过程和诊断错误?
  • RQ5未知词替换在各准则下对翻译质量有何影响?

主要发现

  • 使用 MRT 的 THUMT 在中英翻译上显著优于 MLE。
  • 在 THUMT 中,Adam 优化器相较 AdaDelta 呈现持续改进。
  • SST 借助单语语料在两个方向(zh→en, en→zh)提升翻译质量。
  • 替换未知词在各准则和优化器下均能提升结果。
  • 训练时间因准则和优化器而异,MLE+Adam 比 MRT 更快;在非 MLE 准则中,SST 相对高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。