Skip to main content
QUICK REVIEW

[论文解读] Shape Matters: Understanding the Implicit Bias of the Noise Covariance

Jeff Z. HaoChen, Colin Wei|arXiv (Cornell University)|Jun 15, 2020
Machine Learning and Data Classification被引用 2
一句话总结

本文表明,参数相关噪声(如SGD中的标签噪声)在过参数化模型中会诱导一种向稀疏解的隐式偏差,而球形高斯噪声则导致密集、高范数的解。作者对一个二次参数化模型进行理论分析,表明标签噪声可使优化从任意初始化中恢复真实稀疏模型,而高斯噪声或梯度下降则无法实现。

ABSTRACT

The noise in stochastic gradient descent (SGD) provides a crucial implicit regularization effect for training overparameterized models. Prior theoretical work largely focuses on spherical Gaussian noise, whereas empirical studies demonstrate the phenomenon that parameter-dependent noise -- induced by mini-batches or label perturbation -- is far more effective than Gaussian noise. This paper theoretically characterizes this phenomenon on a quadratically-parameterized model introduced by Vaskevicius et el. and Woodworth et el. We show that in an over-parameterized setting, SGD with label noise recovers the sparse ground-truth with an arbitrary initialization, whereas SGD with Gaussian noise or gradient descent overfits to dense solutions with large norms. Our analysis reveals that parameter-dependent noise introduces a bias towards local minima with smaller noise variance, whereas spherical Gaussian noise does not. Code for our project is publicly available.

研究动机与目标

  • 理解为何参数相关噪声(如标签噪声)在过参数化模型的隐式正则化中比球形高斯噪声更有效。
  • 研究SGD中噪声协方差的隐式偏差,特别是其如何影响收敛至稀疏解与密集解。
  • 从理论上刻画SGD结合标签噪声时恢复真实稀疏真实模型的条件。
  • 对比在过参数化设置下,SGD结合标签噪声与高斯噪声或梯度下降的优化动力学。
  • 揭示噪声方差最小化是驱动参数相关噪声隐式偏差的关键机制。

提出的方法

  • 作者分析了Vaskevicius等人与Woodworth等人提出的二次参数化模型,该模型允许对优化动力学进行精确刻画。
  • 他们将SGD中的噪声建模为参数相关噪声,具体通过标签扰动实现,并与球形高斯噪声进行对比。
  • 分析聚焦于通过研究不同噪声结构下优化轨迹的极限行为,来揭示SGD的隐式偏差。
  • 理论推导表明,参数相关噪声会导向噪声方差更小的局部极小值。
  • 该框架使在相同初始化和模型架构下,比较收敛至稀疏解与密集解成为可能。
  • 该方法利用随机逼近与隐式正则化理论的工具,分析SGD的长期行为。

实验结果

研究问题

  • RQ1为何在过参数化模型中,参数相关噪声比球形高斯噪声更能促进泛化?
  • RQ2SGD结合标签噪声能否从任意初始化中恢复真实稀疏真实模型?
  • RQ3噪声协方差结构如何影响SGD在过参数化设置下的隐式偏差?
  • RQ4局部噪声方差在塑造SGD优化轨迹中起什么作用?
  • RQ5我们能否从理论上区分标签噪声与梯度下降或高斯噪声的隐式正则化效应?

主要发现

  • 在过参数化设置下,SGD结合标签噪声即使从任意初始化也能成功恢复真实稀疏真实模型。
  • 相比之下,SGD结合球形高斯噪声或梯度下降会收敛至参数范数较大的密集解。
  • 参数相关噪声的隐式偏差是朝向噪声方差更小的局部极小值,这与稀疏性相关。
  • 球形高斯噪声不会诱导对低噪声方差解的偏好,这解释了其正则化效果较弱的原因。
  • 理论分析确认,噪声协方差的结构——特别是其参数依赖性——是诱导有效隐式正则化的关键。
  • 结果为标签噪声和小批量噪声在深度学习中经验成功的机制提供了机理解释。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。