[论文解读] Deep Model Compression: Distilling Knowledge from Noisy Teachers
本论文通过引入对数 logits扰动(噪声)来模拟从多个有噪声的教师学习,从而提升在 MNIST、SVHN 和 CIFAR-10 上的浅层学生模型性能。
The remarkable successes of deep learning models across various applications have resulted in the design of deeper networks that can solve complex problems. However, the increasing depth of such models also results in a higher storage and runtime complexity, which restricts the deployability of such very deep models on mobile and portable devices, which have limited storage and battery capacity. While many methods have been proposed for deep model compression in recent years, almost all of them have focused on reducing storage complexity. In this work, we extend the teacher-student framework for deep model compression, since it has the potential to address runtime and train time complexity too. We propose a simple methodology to include a noise-based regularizer while training the student from the teacher, which provides a healthy improvement in the performance of the student network. Our experiments on the CIFAR-10, SVHN and MNIST datasets show promising improvement, with the best performance on the CIFAR-10 dataset. We also conduct a comprehensive empirical evaluation of the proposed method under related settings on the CIFAR-10 dataset to show the promise of the proposed approach.
研究动机与目标
- 推动深度模型压缩不仅降低存储,还减少运行时和训练时间。
- 通过引入基于噪声的正则化(通过对数扰动)来扩展教师-学生框架。
- 证明对教师 logits 的扰动来自子样本的正则化并提升学生精度。
- 在 MNIST、SVHN 和 CIFAR-10 上评估该方法,以分析性能提升与鲁棒性。
提出的方法
- 以从预训练教师那里蒸馏知识为基础,使用 logits 作为目标。
- Perturb teacher logits via z′(i) = (1 + ξ) z(i) where ξ ~ N(0, σ^2 I).
- 在计算损失前,按概率 α 扰动一个小批量中的子集样本的 logits。
- 使用对扰动后的 logits 的 L2 损失来训练学生,L(x, z′, θ)。
- 表明 logits 扰动等价于损失函数中的基于噪声的正则化。
- 从概念上探索从多个教师学习的思路,作为目标中的噪声诱导多样性。
实验结果
研究问题
- RQ1对比标准的 logits 回归在教师-学生压缩中的效果,扰动教师 logits(有噪声的教师)是否能提升浅层学生的准确率?
- RQ2扰动参数(α, σ)如何影响在不同数据集上的性能?
- RQ3是否可以有效模拟从多个有噪声的教师学习,以缩小教师与学生之间的性能差距?
- RQ4该方法与标准正则化技术(如 dropout)相比有何不同?
- RQ5在 CIFAR-10 上,带噪声教师正则化对运行时/存储权衡有何影响?
主要发现
- MNIST:扰动在基线之上实现持续改进,相对提升最高可达 11.3%。
- SVHN:扰动带来适度提升,最佳相对提升约为 3.3%,较高的噪声在某些情况下会降低性能。
- CIFAR-10:扰动带来最大收益,在某些设置下相对提升可达 12.7%。
- 较高的 α(扰动更多的 logits)通常在 CIFAR-10 上提高性能,而最佳 α 取决于教师–学生之间的差距。
- 在他们的实验中,扰动教师 logits 比扰动学生或使用 dropout 的正则化更有效。
- 从多个教师学习(包括一个有噪声的教师)可以进一步提升学生的性能,相较于单教师基线更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。