[论文解读] Variational Information Distillation for Knowledge Transfer
论文提出了变分信息蒸馏(VID),通过变分下界在师生网络之间最大化互信息的信息论框架,在相同及不同架构之间实现卓越的知识迁移。
Transferring knowledge from a teacher neural network pretrained on the same or a similar task to a student neural network can significantly improve the performance of the student neural network. Existing knowledge transfer approaches match the activations or the corresponding hand-crafted features of the teacher and the student networks. We propose an information-theoretic framework for knowledge transfer which formulates knowledge transfer as maximizing the mutual information between the teacher and the student networks. We compare our method with existing knowledge transfer methods on both knowledge distillation and transfer learning tasks and show that our method consistently outperforms existing methods. We further demonstrate the strength of our method on knowledge transfer across heterogeneous network architectures by transferring knowledge from a convolutional neural network (CNN) to a multi-layer perceptron (MLP) on CIFAR-10. The resulting MLP significantly outperforms the-state-of-the-art methods and it achieves similar performance to the CNN with a single convolutional layer.
研究动机与目标
- 在数据有限或教师与学生数据集不同的情况下,激发知识迁移的动机。
- 将知识迁移表述为最大化教师与学生表示之间的互信息。
- 提供一个变分目标,使互信息在训练中可处理、可操作。
- 表明 VID 泛化现有蒸馏方法,并在架构与任务上提升性能。
提出的方法
- 定义教师与学生层激活之间的互信息,并使用 q(t|s) 构造变分下界。
- 将损失定义为结合任务损失与负的变分互信息项的损失,即 L = L_S - sum_k lambda_k E_{t^(k),s^(k)}[log q(t^(k)|s^(k))]。
- 将 q(t|s) 参数化为高斯分布,其均值为 mu(s),方差为 sigma^2,其中 mu 是可学习的(通常为线性或卷积),sigma 限制为正。
- 对知识迁移处理为中间层匹配(VID-I)或对数输出到前末层匹配(VID-LP),在适用时具有空间结构化的 t。
- 表明现有方法(如 KD、FitNet、AT、NST、LwF)在特定的 R 与 mu(s) 取值下成为特例。
- 在知识蒸馏和迁移学习任务上将 VID 与最新方法进行对比,包括 CIFAR-10 上的异构 CNN-to-MLP 迁移。
实验结果
研究问题
- RQ1在教师与学生表示之间最大化互信息是否可以在现有方法之上提升知识迁移效果?
- RQ2VID 能否实现跨异构架构(如 CNN 到 MLP)以及跨任务/数据集的知识迁移?
- RQ3在形式化和性能方面,VID 如何与并推广以往的蒸馏方法(KD、FitNet、AT、NST、LwF)相关?
主要发现
| M | 教师 | 学生 | KD | FitNet | AT | NST | VID-I | KD + AT | KD + VID-I |
|---|---|---|---|---|---|---|---|---|---|
| 5000 | 94.26 | 90.72 | 91.27 | 90.64 | 91.60 | 91.16 | 91.85 | 91.81 | 91.70 |
| 1000 | - | 84.67 | 86.11 | 84.78 | 87.26 | 86.55 | 89.73 | 87.34 | 88.59 |
| 500 | - | 79.63 | 82.23 | 80.73 | 84.94 | 82.61 | 88.09 | 85.01 | 86.53 |
| 100 | - | 58.84 | 64.24 | 68.90 | 73.40 | 64.53 | 81.59 | 76.29 | 78.48 |
- VID 在蒸馏与迁移学习设置下超越 KD、FitNet、AT、NST 和 LwF,且在数据稀缺情形下收益更大。
- VID-I(中间层匹配)在 CIFAR-10/100 的不同数据可用性下始终比基线产生更好准确率。
- VID-LP(对数输出到前末层匹配)和 VID-I 均表现出强劲性能,包括在迁移学习情景中。
- 异构知识迁移效果显著:在 CIFAR-10 上,CNN 教师能显著提升 MLP 学生,弥合了 CNN-MLP 的性能差距。
- 该框架将若干现有方法作为特例,凸显其统一性与知识迁移的 principled 基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。