Skip to main content
QUICK REVIEW

[论文解读] Relational Knowledge Distillation

Wonpyo Park, Dong‐Ju Kim|arXiv (Cornell University)|Apr 10, 2019
Machine Learning and Data Classification参考文献 42被引用 50
一句话总结

本文提出关系知识蒸馏(Relational Knowledge Distillation, RKD),通过距离式和角度式损失将数据样本之间的互相关系从教师传递给学生,在度量学习、分类和小样本学习等任务上提升性能。

ABSTRACT

Knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by the teacher. We introduce a novel approach, dubbed relational knowledge distillation (RKD), that transfers mutual relations of data examples instead. For concrete realizations of RKD, we propose distance-wise and angle-wise distillation losses that penalize structural differences in relations. Experiments conducted on different tasks show that the proposed method improves educated student models with a significant margin. In particular for metric learning, it allows students to outperform their teachers' performance, achieving the state of the arts on standard benchmark datasets.

研究动机与目标

  • 激励从大型教师到较小学生的知识转移,以降低计算和内存开销。
  • 提出一种以结构为重的 KD 关系视角,强调整体结构而非单独输出。
  • 引入两种具体的 RKD 损失(距离式和角度式)以捕捉高阶关系。
  • 展示 RKD 在度量学习、图像分类和少样本学习中的有效性。

提出的方法

  • 将 RKD 表述为通过教师与学生关系之间的损失,将关于数据的 n 元组的关系势 psi 进行传递。
  • 将距离式蒸馏 psi_D(t_i,t_j) 定义为 (1/μ) ||t_i - t_j||_2,其中 μ 为小批量的平均距离。
  • 将角度式蒸馏 psi_A(t_i,t_j,t_k) 定义为 cos(angle t_i t_j t_k),使用嵌入之间的归一化向量。
  • 使用 aHuber 损失 l_δ 来衡量教师与学生关系势的差异。
  • 将 RKD 损失与任务特定损失在联合目标 L_task + λ_KD L_KD 中结合,权重可调。
  • 在教师与学生的嵌入上应用 RKD,使得能够在输出维度无关的情况下进行高阶关系传递。

实验结果

研究问题

  • RQ1在数据样本之间传递关系信息,是否能在超越传统基于输出的 KD 的情况下提升学生模型?
  • RQ2距离式和角度式关系损失是否捕捉到互补的高阶结构,从而有助于学习?
  • RQ3RKD 是否在广泛的任务中有效,如度量学习、图像分类和少样本学习?

主要发现

  • 与传统 KD 基线相比,RKD 在度量学习、分类和少样本学习中提升了学生模型的性能。
  • 在度量学习中,RKD 使更小的学生在标准基准上超过了他们的教师。
  • 角度式(RKD-A)通常比仅距离的蒸馏收敛更快、性能更好。
  • RKD 与其他 KD 方法是互补的,结合使用时可进一步提升结果(例如与 HKD 结合)。
  • 结合 RKD 的自我蒸馏显示学生模型在多个数据集上可以胜过其教师。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。