Skip to main content
QUICK REVIEW

[论文解读] Self-Knowledge Distillation: A Simple Way for Better Generalization

Kyungyul Kim, Byeongmoon Ji|arXiv (Cornell University)|Jun 22, 2020
Advanced Neural Network Applications参考文献 36被引用 40
一句话总结

本文提出自知识蒸馏(Self-Knowledge Distillation, Self-KD),一种正则化方法,通过在训练过程中让模型逐步将其自身知识蒸馏以软化硬性的 one-hot 标签,从而提升深度神经网络的泛化能力。该方法实现了最先进性能,包括在 IWSLT15 英语到德语和德语到英语翻译任务上的 BLEU 分数分别为 30.0 和 36.2。

ABSTRACT

The generalization capability of deep neural networks has been substantially improved by applying a wide spectrum of regularization methods, e.g., restricting function space, injecting randomness during training, augmenting data, etc. In this work, we propose a simple yet effective regularization method named self-knowledge distillation (Self-KD), which progressively distills a model's own knowledge to soften hard targets (i.e., one-hot vectors) during training. Hence, it can be interpreted within a framework of knowledge distillation as a student becomes a teacher itself. The proposed method is applicable to any supervised learning tasks with hard targets and can be easily combined with existing regularization methods to further enhance the generalization performance. Furthermore, we show that Self-KD achieves not only better accuracy, but also provides high quality of confidence estimates. Extensive experimental results on three different tasks, image classification, object detection, and machine translation, demonstrate that our method consistently improves the performance of the state-of-the-art baselines, and especially, it achieves state-of-the-art BLEU score of 30.0 and 36.2 on IWSLT15 English-to-German and German-to-English tasks, respectively.

研究动机与目标

  • 在具有硬目标的监督学习中,提升深度神经网络的泛化能力。
  • 开发一种简单而有效的正则化方法,提升模型性能,且无需依赖外部教师模型。
  • 在多种机器学习任务中,同时提升准确率并提供高质量的置信度估计。
  • 在图像分类、目标检测和机器翻译等多种任务中,展示一致的性能提升。

提出的方法

  • Self-KD 应用知识蒸馏,其中模型同时作为学生和教师,利用其自身的软预测结果来优化训练过程中的损失。
  • 通过利用模型自身输出的概率作为目标分布,逐步软化硬性的 one-hot 目标。
  • 可无缝集成到现有正则化技术中,通过模型自身预测的知识蒸馏提升其有效性。
  • 蒸馏过程在训练过程中迭代应用,使模型能够优化其内部知识表示。
  • 使用温度缩放的交叉熵损失,以鼓励更平滑的概率分布,从而提升泛化能力。

实验结果

研究问题

  • RQ1模型能否通过从自身预测中蒸馏知识来提升自身泛化能力?
  • RQ2与标准训练相比,使用软目标的自蒸馏是否能带来更好的性能和更可靠的置信度估计?
  • RQ3Self-KD 能否与现有正则化方法有效结合,进一步提升模型性能?
  • RQ4Self-KD 在图像分类、目标检测和机器翻译等多样化任务中的表现如何?

主要发现

  • Self-KD 在 IWSLT15 英语到德语和德语到英语机器翻译任务中分别取得了 30.0 和 36.2 的最先进 BLEU 分数。
  • 该方法在图像分类、目标检测和机器翻译任务中,持续提升了最先进基线模型的性能。
  • 即使与现有正则化技术结合,Self-KD 仍能显著提升模型泛化能力,超越标准训练。
  • 与标准训练相比,使用 Self-KD 训练的模型能生成更高质量的置信度估计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。