[论文解读] Understanding and Improving Lexical Choice in Non-Autoregressive Translation
论文分析来自自回归教师的知识蒸馏如何偏向非自回归翻译的词汇选择,尤其是对低频词,并通过KL散度引入原始数据信息先验,以提升跨语言对的词汇准确性和BLEU。
Knowledge distillation (KD) is essential for training non-autoregressive translation (NAT) models by reducing the complexity of the raw data with an autoregressive teacher model. In this study, we empirically show that as a side effect of this training, the lexical choice errors on low-frequency words are propagated to the NAT model from the teacher model. To alleviate this problem, we propose to expose the raw data to NAT models to restore the useful information of low-frequency words, which are missed in the distilled data. To this end, we introduce an extra Kullback-Leibler divergence term derived by comparing the lexical choice of NAT model and that embedded in the raw data. Experimental results across language pairs and model architectures demonstrate the effectiveness and universality of the proposed approach. Extensive analyses confirm our claim that our approach improves performance by reducing the lexical choice errors on low-frequency words. Encouragingly, our approach pushes the SOTA NAT performance on the WMT14 English-German and WMT16 Romanian-English datasets up to 27.8 and 33.8 BLEU points, respectively. The source code will be released.
研究动机与目标
- 识别知识蒸馏如何影响NAT模型的词汇选择,重点关注低频词。
- 使用新的AoLC指标量化跨语言对的词汇选择。
- 提出来自原始数据的数据相关先验,以保留有用的低频词汇信息。
- 开发并评估将原始数据先验与标准NAT训练相结合的基于KL的训练目标。
- 在多种NAT架构和多数据集中证明鲁棒性。
提出的方法
- 定义AoLC(词汇选择准确性)以衡量每个源词的词汇翻译准确性。
- 显示KD提升全局AoLC但损害低频词AoLC。
- 从原始数据引入两种双语数据相关先验:单词对齐分布(WAD)和自蒸馏分布(SDD)。
- 通过KL散度项L_prior将先验纳入并与NAT损失结合,采用衰减的模仿速率lambda。
- 在原始数据和蒸馏数据下进行训练,在En-De、Ro-En、Zh-En、Ja-En等任务上评估MaskPredict和Levenshtein Transformer。
- 证明结合WAD和SDD能够在KD基线之上获得一致的BLEU和AoLC提升,尤其是低频词。
实验结果
研究问题
- RQ1KD是否会将来自AT教师的低频词汇错误传播到NAT模型中?
- RQ2通过数据相关先验暴露NAT模型于原始数据,是否能恢复丢失的低频词汇信息?
- RQ3双语先验(WAD和SDD)是否在多语言对和多种NAT架构上改善词汇选择和总体翻译质量?
- RQ4这些先验如何影响AoLC和低频标记的召回,并且是否能保持或提高BLEU?
主要发现
- KD提升全局词汇准确性(AoLC)但随着教师质量提升可能降低低频词AoLC。
- 使用原始数据先验训练的NAT模型在En-De、Zh-En、Ja-En上显示出更高的AoLC和BLEU。
- 将单词对齐分布与自蒸馏分布相结合在KD基线之上带来最大增益(AoLC和BLEU)。
- 低频词的准确性显著提升(低频词Avg +3.2 AoLC)并且翻译中 recalls 的低频词更多。
- 人工评估显示词汇选择错误减少,对低频词的处理改善。
- 所提先验对较弱的对齐器和对齐噪声具有鲁棒性,仍优于KD基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。