[论文解读] Self-Distillation as Instance-Specific Label Smoothing
本文将自蒸馏解读为在 MAP 框架内的实例特定正则化,将蒸馏与标签平滑联系起来,并引入 Beta 平滑以在不需要单独教师的情况下促进置信度多样性。
It has been recently demonstrated that multi-generational self-distillation can improve generalization. Despite this intriguing observation, reasons for the enhancement remain poorly understood. In this paper, we first demonstrate experimentally that the improved performance of multi-generational self-distillation is in part associated with the increasing diversity in teacher predictions. With this in mind, we offer a new interpretation for teacher-student training as amortized MAP estimation, such that teacher predictions enable instance-specific regularization. Our framework allows us to theoretically relate self-distillation to label smoothing, a commonly used technique that regularizes predictive uncertainty, and suggests the importance of predictive diversity in addition to predictive uncertainty. We present experimental results using multiple datasets and neural network architectures that, overall, demonstrate the utility of predictive diversity. Finally, we propose a novel instance-specific label smoothing technique that promotes predictive diversity without the need for a separately trained teacher model. We provide an empirical evaluation of the proposed method, which, we find, often outperforms classical label smoothing.
研究动机与目标
- 研究多代自蒸馏为何能提升泛化能力。
- 提供教师-学生训练的基于 MAP 的解释。
- 将蒸馏与标签平滑联系起来,并强调预测多样性的作用。
- 提出 Beta 平滑作为一种高效的实例特定正则化技术。
- 通过对概率简单形进行正则化来展示改进的校准性。
提出的方法
- 将蒸馏过程建模为 softmax 输出的摊销 MAP 估计。
- 将教师预测与输出分布的实例特定先验相关联。
- 通过系统性实验将自蒸馏与经典标签平滑进行比较。
- 引入 Beta 平滑以在不需要单独教师的情况下实现实例特定先验。
- 使用基于熵的指标分析预测不确定性和置信度多样性。
- 通过跨数据集的期望校准误差 (ECE) 评估校准改进。
实验结果
研究问题
- RQ1教师预测多样性的增加是否与自蒸馏中学生模型性能的提升相关?
- RQ2是否可以通过 MAP 框架将自蒸馏在理论上与标签平滑联系起来?
- RQ3实例特定正则化(包括 Beta 平滑)是否优于传统标签平滑?
- RQ4Can Beta smoothing offer calibration benefits comparable to or better than self-distillation?
- RQ5预测多样性在提升泛化与校准中的作用是什么?
主要发现
- 逐代自蒸馏在测试准确度和在各代间的校准性方面有所提升。
- 教师预测的多样性越高,学生的性能越好。
- 标签平滑增加预测不确定性,但未必实现多样性;实例特定先验有帮助。
- Beta 平滑通常优于经典标签平滑,且在没有单独教师的情况下也能达到自蒸馏的效果。
- MAP 视角将蒸馏解释为一种实例特定正则化形式,从而改善校准。
- 对教师预测进行温度调整能够通过控制不确定性与多样性大幅提升学生的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。