Skip to main content
QUICK REVIEW

[论文解读] Sequence-Level Knowledge Distillation

Yoon Kim, Alexander M. Rush|arXiv (Cornell University)|Jun 25, 2016
Natural Language Processing Techniques参考文献 47被引用 117
一句话总结

该论文将知识蒸馏应用于神经机器翻译,提出序列级变体,性能超过单词级蒸馏,并实现贪心解码、更快推理以及通过裁剪实现显著压缩。

ABSTRACT

Neural machine translation (NMT) offers a novel alternative formulation of translation that is potentially simpler than statistical approaches. However to reach competitive performance, NMT models need to be exceedingly large. In this paper we consider applying knowledge distillation approaches (Bucila et al., 2006; Hinton et al., 2015) that have proven successful for reducing the size of neural models in other domains to the problem of NMT. We demonstrate that standard knowledge distillation applied to word-level prediction can be effective for NMT, and also introduce two novel sequence-level versions of knowledge distillation that further improve performance, and somewhat surprisingly, seem to eliminate the need for beam search (even when applied on the original teacher model). Our best student model runs 10 times faster than its state-of-the-art teacher with little loss in performance. It is also significantly better than a baseline model trained without knowledge distillation: by 4.2/1.7 BLEU with greedy decoding/beam search. Applying weight pruning on top of knowledge distillation results in a student model that has 13 times fewer parameters than the original teacher model, with a decrease of 0.4 BLEU.

研究动机与目标

  • 在不牺牲性能的前提下减少 NMT 模型规模。
  • 研究 NMT 的单词级和序列级知识蒸馏。
  • 探索序列级插值以利用教师分布。
  • 在使用蒸馏和裁剪的模型时评估解码速度和压缩效果。

提出的方法

  • 通过匹配教师/学生的单词分布,应用标准的单词级知识蒸馏用于 NMT。
  • 提出序列级知识蒸馏(Seq-KD),通过在教师的 beam 搜索输出(q(t|s) 的模式)上训练学生模型。
  • 引入序列级插值(Seq-Inter),将教师生成的数据与原始数据混合。
  • 使用 beam 搜索(K=5)来近似教师分布,并在 English–German 与 Thai–English 任务上进行评估。
  • 为了提高效率进行微调和数据生成(例如对 English–German 的 50% 数据使用 Seq-Inter)。
  • 探索权重裁剪以在蒸馏后进一步减少参数。

实验结果

研究问题

  • RQ1序列级知识蒸馏能在 NMT 中超越标准单词级蒸馏吗?
  • RQ2Seq-KD 是否能够使贪心解码接近或达到 beam 搜索的质量?

主要发现

  • Seq-KD 相对于基线可带来显著的 BLEU 提升,在 English→German 上超越 Word-KD,在 Thai→English 上表现相近。
  • 将 Seq-KD 与 Word-KD 结合可带来正交性增益,尤其对于较小的学生模型(例如 2×300/2×100)。
  • Seq-Inter 在贪心解码下可达到或超过教师 beam 的性能,从而实现更快的推理。
  • Seq-KD 模型的贪心解码在可比 BLEU 的前提下,约比对较大教师模型的 beam 搜索快 10×。
  • 权重裁剪在 BLEU 损失较小的情况下可使参数减少最多 13×(例如在 80% 裁剪下 BLEU 下降 0.4)。
  • Seq-KD 往往在教师模式周围产生尖峰分布,帮助有效的贪心解码并减少对 beam 搜索的需求。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。