QUICK REVIEW

[论文解读] Vocabulary Selection Strategies for Neural Machine Translation

Gurvan L'Hostis, David Grangier|arXiv (Cornell University)|Oct 1, 2016

Natural Language Processing Techniques参考文献 24被引用 38

一句话总结

本文提出了一种神经机器翻译中的词汇选择策略，可在几乎不损失准确率的情况下，将解码时间减少高达90%，训练时间减少25%。通过使用词对齐、双语词嵌入或SVM分类器等方法，从目标词汇表中选择一个小型、与上下文相关的子集，模型避免了对大规模词汇表的评分，从而在英德和英罗语翻译任务中实现了接近最先进水平的性能。

ABSTRACT

Classical translation models constrain the space of possible outputs by selecting a subset of translation rules based on the input sentence. Recent work on improving the efficiency of neural translation models adopted a similar strategy by restricting the output vocabulary to a subset of likely candidates given the source. In this paper we experiment with context and embedding-based selection methods and extend previous work by examining speed and accuracy trade-offs in more detail. We show that decoding time on CPUs can be reduced by up to 90% and training time by 25% on the WMT15 English-German and WMT16 English-Romanian tasks at the same or only negligible change in accuracy. This brings the time to decode with a state of the art neural translation system to just over 140 msec per sentence on a single CPU core for English-German.

研究动机与目标

通过在解码过程中减小目标词汇表大小，提升神经机器翻译系统的推理效率。
探究词汇选择技术是否能在显著降低计算成本的同时保持或提升翻译准确率。
评估词汇选择对不同语种对和模型架构的解码与训练效率的影响。
确定上下文感知的选择方法是否在速度-准确率权衡方面优于简单的频率基础或对齐基础方法。
探究使用动态选择的缩减词汇表进行训练是否能改善模型泛化能力或收敛性。

提出的方法

通过利用双语双语语料中的共现统计量，识别与输入句子相关的少量目标词，实现词汇选择。
基于共现矩阵，通过Hellinger PCA学习双语词嵌入，以增强对罕见词对的鲁棒性。
利用短语模型的词对齐结果估计P(t|s)，选择对齐概率高的目标词。
利用传统短语表中的短语对，基于局部短语级上下文识别候选翻译。
在从整个源句提取的特征上训练判别性SVM分类器，以预测可能的目标词。
在解码和训练过程中均使用所选词汇表，模型仅对这些候选词进行评分，从而降低计算负载。

实验结果

研究问题

RQ1词汇选择技术是否能将神经机器翻译的解码时间减少高达90%，同时保持可忽略的准确率损失？
RQ2不同选择策略（如词对齐、词嵌入或SVM）在速度与准确率方面的表现如何比较？
RQ3使用缩减的、句子特定的词汇表进行训练，是否能改善模型泛化能力或收敛性？
RQ4词汇表大小对推理与训练效率的影响如何，尤其是在使用更快的编码器架构时？
RQ5是否能通过一个小型选定词汇表（例如每句约600个词）恢复超过99%的参考翻译中的词汇？

主要发现

在单个CPU核心上，英德翻译的解码速度降至每句仅140多毫秒，相比完整词汇表解码实现了90%的加速。
仅使用词对齐即可实现高准确率，使用每句约600个词的词汇表，即可恢复超过99%的参考翻译词汇。
使用基于词对齐的词汇选择策略，GPU上的训练速度最高提升33%（1.33倍），且验证BLEU分数无显著下降。
当使用平均池化编码器替代双向LSTM时，词汇选择带来的训练速度提升增至66%（1.66倍），表明编码器效率是主要瓶颈。
结合词汇选择与更小的词汇表大小（例如每批6,000词），在平均池化编码器上使每轮训练时间减少了40%，但BLEU分数从22.5降至18.5。
在训练中加入最频繁的2,000个词并未提升准确率，表明上下文感知选择比基于频率的包含更有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。