QUICK REVIEW

[论文解读] THUMT: An Open Source Toolkit for Neural Machine Translation

Jiacheng Zhang, Yanzhuo Ding|arXiv (Cornell University)|Jun 20, 2017

Natural Language Processing Techniques参考文献 15被引用 88

一句话总结

THUMT 是一个基于 Theano 的开源神经机器翻译工具包，支持 MLE、MRT 和 SST 培训标准，含可视化工具和未知词替换，展现出与中英翻译竞争力的结果。

ABSTRACT

This paper introduces THUMT, an open-source toolkit for neural machine translation (NMT) developed by the Natural Language Processing Group at Tsinghua University. THUMT implements the standard attention-based encoder-decoder framework on top of Theano and supports three training criteria: maximum likelihood estimation, minimum risk training, and semi-supervised training. It features a visualization tool for displaying the relevance between hidden states in neural networks and contextual words, which helps to analyze the internal workings of NMT. Experiments on Chinese-English datasets show that THUMT using minimum risk training significantly outperforms GroundHog, a state-of-the-art toolkit for NMT.

研究动机与目标

激励开源开发具备灵活训练准则的 NMT 工具。
提供一个基于 Theano 的编码器-解码器注意力 NMT 实现。
通过利用层级相关传播的可视化工具实现对 NMT 内部的分析。
展示在中英翻译任务中，不同训练准则与优化器下的性能和训练时间权衡。
展示半监督学习和最小化风险训练对翻译质量的益处。

提出的方法

在 Theano 上实现标准的带注意力的编码器-解码器 NMT。
支持三种训练准则：最大似然估计（MLE）、最小风险训练（MRT）和半监督训练（SST）。
提供优化选项：SGD、Adadelta 和 Adam（为避免 NaN 进行修改）。
提供基于层次相关传播的可视化工具来分析翻译。
使用 FastAlign 构建双语词典以进行未知词替换。
对比 THUMT 与 GroundHog 在中英翻译上的表现，并报告 BLEU 与训练时间指标。

实验结果

研究问题

RQ1THUMT 是否在中英翻译中对比领先的开源 NMT 工具获得具有竞争力的 BLEU 分数？
RQ2相较于标准 MLE，MRT 和 SST 对翻译质量的影响是什么？
RQ3不同优化器对 THUMT 的翻译性能和训练效率有何影响？
RQ4NMT 内部的可视化是否有助于理解翻译过程和诊断错误？
RQ5未知词替换在各准则下对翻译质量有何影响？

主要发现

使用 MRT 的 THUMT 在中英翻译上显著优于 MLE。
在 THUMT 中，Adam 优化器相较 AdaDelta 呈现持续改进。
SST 借助单语语料在两个方向（zh→en, en→zh）提升翻译质量。
替换未知词在各准则和优化器下均能提升结果。
训练时间因准则和优化器而异，MLE+Adam 比 MRT 更快；在非 MLE 准则中，SST 相对高效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。