[论文解读] On Using Very Large Target Vocabulary for Neural Machine Translation
本文提出了一种基于重要性采样的训练方法,使神经机器翻译(NMT)模型能够在不增加训练复杂度的情况下使用极大规模的目标词汇表。通过近似输出概率分布中的归一化项,该方法实现了使用完整或剪枝词汇表的高效训练与解码,在WMT’14英语到法语及英语到德语翻译任务上取得了当前最优的BLEU分数,相比以往单一模型的NMT系统最高提升了1个BLEU点。
Neural machine translation, a recently proposed approach to machine translation based purely on neural networks, has shown promising results compared to the existing approaches such as phrase-based statistical machine translation. Despite its recent success, neural machine translation has its limitation in handling a larger vocabulary, as training complexity as well as decoding complexity increase proportionally to the number of target words. In this paper, we propose a method that allows us to use a very large target vocabulary without increasing training complexity, based on importance sampling. We show that decoding can be efficiently done even with the model having a very large target vocabulary by selecting only a small subset of the whole target vocabulary. The models trained by the proposed approach are empirically found to outperform the baseline models with a small vocabulary as well as the LSTM-based neural machine translation models. Furthermore, when we use the ensemble of a few models with very large target vocabularies, we achieve the state-of-the-art translation performance (measured by BLEU) on the English->German translation and almost as high performance as state-of-the-art English->French translation system.
研究动机与目标
- 解决神经机器翻译(NMT)在处理大规模目标词汇表时因训练与解码复杂度高而带来的局限性。
- 开发一种训练算法,即使在使用完整的大规模目标词汇表时也能保持较低的计算成本。
- 通过推理阶段仅选择全词汇表中一小部分词作为候选,实现高效的解码。
- 通过实证评估,检验使用大规模词汇表训练的模型是否在标准翻译基准上优于使用受限词汇表的模型。
提出的方法
- 该方法采用有偏的重要性采样来近似输出概率分布中的归一化常数,避免在训练过程中对整个目标词汇表计算概率。
- 重要性采样方案基于模型当前的预测结果构建提议分布,以估计模型参数对对数似然梯度的影响。
- 训练目标被修改为使用完整Softmax的随机近似,将计算成本降低至仅需处理目标词的小部分子集。
- 在推理阶段,每个源句的解码使用大小为K'的动态候选词列表,从全词汇表中根据似然得分选取。
- 模型架构遵循Bahdanau等人(2014)提出的基于注意力的编码器-解码器框架,但对输出层进行了修改以支持大规模词汇表的训练。
- 为多个源句预先计算一个通用候选列表,以减少每条序列的重新计算开销,从而保持解码速度接近基线模型。
实验结果
研究问题
- RQ1神经机器翻译模型能否在不增加训练复杂度的前提下,高效地训练大规模目标词汇表?
- RQ2与使用受限词汇表的模型相比,使用更大目标词汇表是否能提升翻译性能?
- RQ3通过选择性候选词采样,能否实现在使用完整或接近完整的目标词汇表时的高效解码?
- RQ4与WMT’14等标准基准上的当前最优系统相比,使用重要性采样训练的模型性能如何?
- RQ5推理阶段的目标词汇表大小选择是否与训练阶段的词汇表大小存在相关性?
主要发现
- 所提方法在WMT’14英语到法语翻译任务上取得了38.3的BLEU分数,相比Luong等人(2014)提出的最佳单一模型NMT系统高出约1个BLEU点。
- 在英语到德语任务上,最佳模型取得了21.59的BLEU分数,超过Buck等人(2014)报告的先前最优结果20.67。
- 使用极大规模目标词汇表的集成模型在WMT’14英语到法语任务上的性能与最佳系统相差仅0.3个BLEU点以内。
- 通过在多个句子间共享候选列表,解码速度得以保持接近基线水平,实现了接近基线的效率。
- 在τ = 30,000下训练、K = 50,000候选词下测试的模型相比K' = 1的设置提升了0.2个BLEU点,表明当训练词汇表较大时,更大的候选集能进一步提升性能。
- 性能对训练与推理阶段词汇表大小的对齐程度较为敏感,当两者大小相近时性能最佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。