Skip to main content
QUICK REVIEW

[论文解读] FEED: Feature-level Ensemble for Knowledge Distillation

Seonguk Park, Nojun Kwak|arXiv (Cornell University)|Sep 24, 2019
Advanced Neural Network Applications参考文献 31被引用 23
一句话总结

本文提出FEED,一种特征级知识蒸馏框架,可在特征图层面实现从多个教师网络到单一学生网络的知识迁移。通过并行应用非线性变换于每个教师的特征图,FEED在不增加推理时参数或计算量的前提下,提升了学生网络的泛化能力,在CIFAR-100和ImageNet上实现了最先进性能。

ABSTRACT

Knowledge Distillation (KD) aims to transfer knowledge in a teacher-student framework, by providing the predictions of the teacher network to the student network in the training stage to help the student network generalize better. It can use either a teacher with high capacity or {an} ensemble of multiple teachers. However, the latter is not convenient when one wants to use feature-map-based distillation methods. For a solution, this paper proposes a versatile and powerful training algorithm named FEature-level Ensemble for knowledge Distillation (FEED), which aims to transfer the ensemble knowledge using multiple teacher networks. We introduce a couple of training algorithms that transfer ensemble knowledge to the student at the feature map level. Among the feature-map-based distillation methods, using several non-linear transformations in parallel for transferring the knowledge of the multiple teacher{s} helps the student find more generalized solutions. We name this method as parallel FEED, andexperimental results on CIFAR-100 and ImageNet show that our method has clear performance enhancements, without introducing any additional parameters or computations at test time. We also show the experimental results of sequentially feeding teacher's information to the student, hence the name sequential FEED, and discuss the lessons obtained. Additionally, the empirical results on measuring the reconstruction errors at the feature map give hints for the enhancements.

研究动机与目标

  • 为解决现有基于特征图的蒸馏方法无法有效利用集成教师网络的问题。
  • 开发一种在特征图层面迁移集成知识的训练框架,结合集成正则化与详细特征级知识的优势。
  • 通过非线性变换注入多教师特征级知识,提升学生网络的泛化能力。
  • 对基于重构损失的特征级集成蒸馏有效性进行实证与定性分析。

提出的方法

  • 提出并行FEED,对来自多个教师网络的特征图分别应用独立的非线性变换,再聚合用于学生训练。
  • 采用共享的学生网络架构与相同架构的多个教师网络,以实现一致的特征级知识迁移。
  • 引入序列FEED,通过在后续训练阶段将学生作为教师,实现知识的递归迁移。
  • 使用复述网络测量特征图的重构损失,提供知识迁移有效性的定性洞察。
  • 利用基于自编码器的重构损失分析学生网络学习教师集成复杂特征的能力。
  • 并行应用非线性变换,从多个教师的特征图中提取多样化且泛化性强的表征。

实验结果

研究问题

  • RQ1特征级知识蒸馏能否有效利用来自多个教师网络的集成知识?
  • RQ2与基于标签的蒸馏相比,多教师特征级蒸馏在泛化性能上表现如何?
  • RQ3在多教师设置下,非线性变换对特征图知识迁移有何影响?
  • RQ4复述网络的重构误差与学生模型准确率提升之间有何关联?
  • RQ5在何种条件下,特征级集成蒸馏优于基于标签的蒸馏?

主要发现

  • 并行FEED在CIFAR-100和ImageNet上实现了最先进性能,且在推理阶段未引入额外参数或计算量。
  • 随着知识迁移效果的提升,复述网络的重构损失逐渐降低,表明学生网络从集成中学习到了更复杂、更详细的特征。
  • 序列FEED在大型高容量网络上优于KD和BAN等基线方法,表明详细特征级知识对复杂模型更具优势。
  • KD与pFEED在重构损失曲线上的表现趋势相反,表明基于标签的蒸馏传递的是抽象知识,而pFEED传递的是更具体、更详细的特征知识。
  • 对于高容量网络,采用多教师的基于特征图的蒸馏(pFEED)优于基于标签的方法,证实详细特征知识能增强泛化能力。
  • 结果表明,特征级集成蒸馏在大模型中尤为有效,因为抽象的基于标签的知识不足以实现最优性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。