[论文解读] Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons
论文通过转移神经元是否被激活来引入激活边界蒸馏,使用激活转移损失和一个可微分的铰链型替代方案,在知识迁移和迁移学习方面优于早期方法。
An activation boundary for a neuron refers to a separating hyperplane that determines whether the neuron is activated or deactivated. It has been long considered in neural networks that the activations of neurons, rather than their exact output values, play the most important role in forming classification friendly partitions of the hidden feature space. However, as far as we know, this aspect of neural networks has not been considered in the literature of knowledge transfer. In this paper, we propose a knowledge transfer method via distillation of activation boundaries formed by hidden neurons. For the distillation, we propose an activation transfer loss that has the minimum value when the boundaries generated by the student coincide with those by the teacher. Since the activation transfer loss is not differentiable, we design a piecewise differentiable loss approximating the activation transfer loss. By the proposed method, the student learns a separating boundary between activation region and deactivation region formed by each neuron in the teacher. Through the experiments in various aspects of knowledge transfer, it is verified that the proposed method outperforms the current state-of-the-art.
研究动机与目标
- 通过关注神经元激活边界而不是激活幅度来推动改进的知识迁移。
- 提出一个激活转移损失,最小化教师和学生之间神经元激活状态的差异。
- 构建一个可微代理损失,用以近似非可微的激活转移损失,便于基于梯度的优化。
- 将方法扩展到通过连接函数处理不同网络尺寸,并对具有空间共享转移的卷积网络进行扩展。
- 在各种迁移学习场景中展示相对于最先进方法的优越性。
提出的方法
- 将教师和学生定义为 T(I) 和 S(I),取非线性之前的激活。
- 引入激活转移损失 L(I) = ||rho(T(I)) - rho(S(I))||1,目标是激活边界。
- 提供可微代理损失(类似铰链损失),近似激活转移损失并实现基于梯度的优化。
- 引入边距参数 mu 以稳定训练并推导梯度行为。
- 允许连接函数 r,将学生输出映射到与教师同尺寸表示,当网络尺寸不同。
- 通过在空间位置上对损失求和并使用共享的 1x1 连接器,将框架扩展到卷积网络。
实验结果
研究问题
- RQ1在教师和学生之间转移激活边界,是否能超越基于幅度的转移来改善知识迁移?
- RQ2基于激活的蒸馏方法是否在多种架构和数据条件下优于现有的KD及相关迁移方法?
- RQ3在训练数据有限和网络压缩(尺寸/维度差异)情形下,所提方法在迁移学习中的表现?
- RQ4该方法能否有效扩展到卷积网络和空间特征图?
主要发现
- 提出的激活边界蒸馏方法在多个实验设置中持续优于最先进的迁移方法。
- 该方法提升学习速度并改善泛化,尤其在训练数据较少时。
- 在迁移学习任务中,该方法常常超过传统的 ImageNet 预训练基线。
- 连接函数在教师和学生尺寸不同的情况下实现知识转移,适用于有效的压缩场景。
- 各实验的平均结果显示稳健的激活边界转移,消融实验表明该方法与非可微的激活转移损失高度逼近。
- 分析表明,与基于Lp的损失相比,该方法在教师与学生之间实现更高的激活相似性,同时提供更好的分类性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。