[论文解读] Like What You Like: Knowledge Distill via Neuron Selectivity Transfer
NST 将知识迁移视为教师与学生之间神经元选择性模式分布的一致性,通过 MMD 来改善紧凑模型。它在 CIFAR 和 ImageNet 上获得显著提升,并可与其他 KT 方法互补。
Despite deep neural networks have demonstrated extraordinary power in various applications, their superior performances are at expense of high storage and computational costs. Consequently, the acceleration and compression of neural networks have attracted much attention recently. Knowledge Transfer (KT), which aims at training a smaller student network by transferring knowledge from a larger teacher model, is one of the popular solutions. In this paper, we propose a novel knowledge transfer method by treating it as a distribution matching problem. Particularly, we match the distributions of neuron selectivity patterns between teacher and student networks. To achieve this goal, we devise a new KT loss function by minimizing the Maximum Mean Discrepancy (MMD) metric between these distributions. Combined with the original loss function, our method can significantly improve the performance of student networks. We validate the effectiveness of our method across several datasets, and further combine it with other KT methods to explore the best possible results. Last but not least, we fine-tune the model to other tasks such as object detection. The results are also encouraging, which confirm the transferability of the learned features.
研究动机与目标
- 通过一种新的知识迁移范式推动网络加速与压缩。
- 引入 Neuron Selectivity Transfer (NST),使教师与学生之间的神经元激活分布匹配。
- 将 Maximum Mean Discrepancy (MMD) 作为核心 NST 损失,用以对齐神经元选择性模式。
- 证明 NST 在 CIFAR-10/100、ImageNet 以及下游任务如目标检测中的有效性。
- 展示 NST 可以与现有 KT 方法互补,以取得更好结果。
提出的方法
- 将神经元激活视为跨空间位置的选择性模式分布。
- 将 NST 损失定义为交叉熵加上教师-学生特征图之间的放缩 MMD 项。
- 在计算 MMD 之前对特征图进行归一化,以使样本尺度等化。
- 探索 MMD 的三种核:线性核、多项式核(二阶,c=0)和高斯核。
- 证明使用多项式核的 NST 通常能取得最佳性能。
实验结果
研究问题
- RQ1是否可通过 MMD 对齐教师与学生之间的神经元选择性分布来提升学生网络的性能,超越直接的特征图匹配?
- RQ2在标准数据集(CIFAR、ImageNet)及下游任务上,NST 与现有 KT 方法(KD、FitNet、AT)的对比如何?
- RQ3NST 是否与其他 KT 方法互补,在组合使用时是否有益(如 KD+NST)?
主要发现
- NST 在 CIFAR-10 和 CIFAR-100 上均优于基线的学生模型。
- 在 NST 的变体中,使用多项式核的 NST 往往获得最佳 CIFAR 结果(例如 Table 1 中 Inception-BN 的 CIFAR-10 为 4.39,CIFAR-100 为 23.46)。
- 在 ImageNet 上,使用二阶多项式核的 NST 相较于基线学生模型获得 0.9% 的 top-1 增益和 0.5% 的 top-5 增益。
- 将 NST 与 KD 结合在 CIFAR 和 ImageNet 上提供最佳整体增益(例如 KD+NST* 产生最高结果)。
- 在与 Faster R-CNN 一起使用时,NST 也提升 PASCAL VOC 2007 的目标检测性能,通常优于其他 KT 方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。