[论文解读] Knowledge Distillation from Few Samples
本文提出了一种新颖的知识蒸馏方法,仅使用少量训练样本即可实现教师网络到学生网络的高效知识迁移。通过在学生网络的每个模块中添加可学习的1x1卷积层,并使用有限数据优化这些层,使教师与学生网络的特征图对齐,这些层可无缝合并回原始层中而不增加计算成本,从而在极小数据量下实现优异性能。
Current knowledge distillation methods require full training data to distill knowledge from a large teacher network to a compact student network by matching certain statistics between teacher and student such as softmax outputs and feature responses. This is not only time-consuming but also inconsistent with human cognition in which children can learn knowledge from adults with few examples. This paper proposes a novel and simple method for knowledge distillation from few samples. Taking the assumption that both teacher and student have the same feature map sizes at each corresponding block, we add a 1x1 conv-layer at the end of each block in the student-net, and align the block-level outputs between teacher and student by estimating the parameters of the added layer with limited samples. We prove that the added layer can be absorbed/merged into the previous conv-layer to formulate a new conv-layer with the same size of parameters and computation cost as the previous one. Experiments verify that the proposed method is very efficient and effective to distill knowledge from teacher-net to student-net constructing in different ways on various datasets.
研究动机与目标
- 解决现有知识蒸馏方法依赖完整训练数据集导致的效率低下问题。
- 仅使用少量训练样本即可实现从教师网络到学生网络的知识迁移,模拟人类的少样本学习能力。
- 开发一种在蒸馏后保持与原始学生网络相同模型大小和计算成本的方法。
- 证明添加的1x1卷积层可被合并进现有卷积层中,而不会增加参数量或FLOPs。
- 在极小数据量下,于多种架构和数据集上验证该方法的有效性。
提出的方法
- 在学生网络每个模块的末尾引入1x1卷积层,以对齐教师网络对应模块的特征图。
- 仅使用训练集中少量标注样本优化这些1x1卷积层的参数。
- 采用损失函数,最小化教师与学生网络在每个模块输出特征图之间的差异。
- 从数学上证明添加的1x1卷积层可被吸收进前序卷积层,从而保持模型参数量和计算成本不变。
- 端到端训练学生网络,包含添加的1x1卷积层,随后在推理阶段将它们合并进前序层。
- 确保蒸馏过程保持与原始学生网络相同的参数量和FLOPs。
实验结果
研究问题
- RQ1能否仅使用少量训练样本而非完整数据集,实现有效的知识蒸馏?
- RQ2在数据有限的条件下,如何高效实现教师与学生网络之间的特征图对齐?
- RQ3是否可以添加1x1卷积层并在后续将其合并进学生网络原有层中,而不增加模型复杂度?
- RQ4该方法在极小数据量下是否能在不同网络架构和数据集上实现泛化?
- RQ5该蒸馏过程能否在保持模型效率的同时实现高准确率?
主要发现
- 所提方法仅使用少量训练样本即可实现强大的知识蒸馏性能,显著降低对数据的依赖。
- 添加的1x1卷积层可从数学上被合并进前序卷积层,保持原始模型的参数量和FLOPs不变。
- 该方法在多种学生与教师网络架构及多个数据集上均表现有效。
- 实验表明,即使在数据有限的情况下,该蒸馏过程仍能提升学生网络的准确率。
- 该方法实现了高效、低数据量的知识迁移,更贴近人类的少样本学习模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。