Skip to main content
QUICK REVIEW

[论文解读] Self-Distillation Amplifies Regularization in Hilbert Space

Hossein Mobahi, Mehrdad Farajtabar|arXiv (Cornell University)|Feb 13, 2020
Gaussian Processes and Bayesian Inference参考文献 41被引用 98
一句话总结

该论文对带有 L2 正则化的希尔伯特空间回归中的自蒸馏进行理论分析,证明重复蒸馏会稀疏化解的基,且可能从减少过拟合转变为潜在的欠拟合。

ABSTRACT

Knowledge distillation introduced in the deep learning context is a method to transfer knowledge from one architecture to another. In particular, when the architectures are identical, this is called self-distillation. The idea is to feed in predictions of the trained model as new target values for retraining (and iterate this loop possibly a few times). It has been empirically observed that the self-distilled model often achieves higher accuracy on held out data. Why this happens, however, has been a mystery: the self-distillation dynamics does not receive any new information about the task and solely evolves by looping over training. To the best of our knowledge, there is no rigorous understanding of this phenomenon. This work provides the first theoretical analysis of self-distillation. We focus on fitting a nonlinear function to training data, where the model space is Hilbert space and fitting is subject to $\ell_2$ regularization in this function space. We show that self-distillation iterations modify regularization by progressively limiting the number of basis functions that can be used to represent the solution. This implies (as we also verify empirically) that while a few rounds of self-distillation may reduce over-fitting, further rounds may lead to under-fitting and thus worse performance.

研究动机与目标

  • 激发对为什么自蒸馏在没有新任务信息的情况下仍能改善泛化的理解。
  • 在希尔伯特空间回归设定中将自蒸馏形式化为一种迭代正则化机制。
  • 表征自蒸馏如何改变正则化及用于表示解的有效基。
  • 提供界限与见解,说明何时自蒸馏有助于泛化,何时会导致欠拟合。

提出的方法

  • 建立一个带有基于 Mercer 核的正则化项 R(f) 的约束正则化回归问题。
  • 推导 KKT 条件,得到利用核算子绿函数的类似表示定理的解 f* 的闭式形式。
  • 将自蒸馏表达为对训练标签向量 y_t 的递推关系:y_t = V^T A_{t-1} V y_{t-1},其中 A_t 为对角矩阵。
  • 证明每一轮的 f* 都具有包含 (c I + G)^{-1} 的闭式形式,其中 G 是由核构建的 Gram 类矩阵。
  • 分析乘积 B_t = ∏_{i=0}^t A_i 的演变,以揭示基权重的渐进稀疏化。
  • 讨论近似插值范式,并与提前停止在稀疏性和正则化方面进行对比。

实验结果

研究问题

  • RQ1自蒸馏是否在希尔伯特空间回归中起正则化作用?如果是,它如何改变有效基?
  • RQ2自蒸馏轮次数如何影响泛化与欠拟合?
  • RQ3是否可以给出非零基分量数的界限,并描述自蒸馏引起的稀疏性模式?
  • RQ4自蒸馏的动力学如何与插值范式及潜在的泛化收益相关?
  • RQ5从该分析中可产生哪些对多类设置的扩展和泛化界限?

主要发现

  • 自蒸馏的迭代修改正则化,逐步限制用于表示解的基函数数量。
  • 蒸馏步骤中的对角矩阵乘积 B_t 变得越来越稀疏,降低了有效模型容量。
  • 在给定误差容忍度下,存在一个保证的轮次数使解坍缩为零函数。
  • 近似插值范式(小 epsilon)增强稀疏性,表明若在坍塌前保持更深的蒸馏,可能增加正则化。
  • 通过更大训练误差进行早停并不等价于自蒸馏稀疏化,并且在正则化方面有不同的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。