Skip to main content
QUICK REVIEW

[论文解读] Kernel Based Progressive Distillation for Adder Neural Networks

Yixing Xu, Chang Xu|arXiv (Cornell University)|Sep 28, 2020
Advanced Image Processing Techniques参考文献 45被引用 27
一句话总结

本文提出基于核的渐进蒸馏(PKKD),通过从结构相同的CNN教师网络中蒸馏知识,以提升加法神经网络(ANNs)的性能。通过使用高斯核和拉普拉斯核将特征与权重映射到核诱导的高维空间,PKKD减少了分布差异,实现了渐进式知识迁移,在ImageNet上达到76.8%的top-1准确率,超越了原始的ResNet-50基线和普通ANN模型。

ABSTRACT

Adder Neural Networks (ANNs) which only contain additions bring us a new way of developing deep neural networks with low energy consumption. Unfortunately, there is an accuracy drop when replacing all convolution filters by adder filters. The main reason here is the optimization difficulty of ANNs using $\ell_1$-norm, in which the estimation of gradient in back propagation is inaccurate. In this paper, we present a novel method for further improving the performance of ANNs without increasing the trainable parameters via a progressive kernel based knowledge distillation (PKKD) method. A convolutional neural network (CNN) with the same architecture is simultaneously initialized and trained as a teacher network, features and weights of ANN and CNN will be transformed to a new space to eliminate the accuracy drop. The similarity is conducted in a higher-dimensional space to disentangle the difference of their distributions using a kernel based method. Finally, the desired ANN is learned based on the information from both the ground-truth and teacher, progressively. The effectiveness of the proposed method for learning ANN with higher performance is then well-verified on several benchmarks. For instance, the ANN-50 trained using the proposed PKKD method obtains a 76.8\% top-1 accuracy on ImageNet dataset, which is 0.6\% higher than that of the ResNet-50.

研究动机与目标

  • 解决由于ℓ₁-范数优化中梯度不准确导致的加法神经网络(ANNs)性能下降问题。
  • 在不增加模型参数或计算成本的前提下,弥合ANNs与CNNs之间的性能差距。
  • 开发一种方法,即使在权重分布不同(拉普拉斯分布与高斯分布)的情况下,也能有效从CNN教师网络向同构的ANN学生网络迁移知识。
  • 通过适应训练动态和特征分布变化的渐进式蒸馏,进一步提升ANN性能。

提出的方法

  • 基于核的特征与权重变换将ANN和CNN的特征映射到高维空间,以解耦分布差异。
  • 对CNN的特征与权重应用高斯核,对ANN则使用拉普拉斯核,从而在变换空间中实现更优的对齐。
  • 在核空间中执行知识蒸馏,将教师CNN的软标签信息与特征级关系迁移至学生ANN。
  • 通过与ANN学生网络共同训练CNN教师网络,实现渐进式蒸馏,使教师的知识在训练过程中逐步优化并迁移。
  • 学生网络通过联合损失函数进行训练:包括真实标签的交叉熵损失与来自核嵌入教师特征的蒸馏损失。
  • 超参数α和β用于控制真实标签损失与蒸馏损失之间的平衡,其值在CIFAR和ImageNet基准上通过经验优化确定。

实验结果

研究问题

  • RQ1即使在权重与激活分布不同的情况下,能否通过CNN教师网络的知识蒸馏提升结构相同的ANN学生网络的性能?
  • RQ2在高维空间中基于核的特征变换是否能有效减少ANN与CNN特征之间的分布差异?
  • RQ3在训练过程中教师网络动态演化的渐进式蒸馏,是否能带来优于静态蒸馏的性能表现?
  • RQ4PKKD在大规模基准如ImageNet上,能在多大程度上弥合ANN与对应CNN模型之间的准确率差距?
  • RQ5所提方法是否在不引入额外参数或乘法运算的前提下,实现了ANN的最先进性能?

主要发现

  • PKKD-ANN-50在ImageNet上达到76.8%的top-1准确率,较原始ResNet-50高出0.6%,较普通ANN-50高出1.9%。
  • 在CIFAR-100上,PKKD-ANN-20在α=β=5时达到69.93%的准确率,优于普通ANN-20,并接近教师网络ResNet-20的性能。
  • 在ResNet-18上,该方法将ANN与CNN之间的top-1准确率差距缩小了1.8%;在ResNet-50上缩小了1.9%,展现出强大的性能补偿能力。
  • 基于核的变换显著改善了ANN与CNN之间的特征对齐,即使在优化动力学不同的情况下,也能实现有效的知识蒸馏。
  • 采用联合训练的CNN教师网络的渐进式蒸馏策略,相比固定教师或非渐进方法,实现了更稳定且高效的知识迁移。
  • 所提方法保持零乘加运算,仅需0.1G FLOPs与7.6G加法运算,使ANN-50具有极高的能效比。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。