Skip to main content
QUICK REVIEW

[论文解读] On the Implicit Bias of Dropout

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jun 26, 2018
Stochastic Gradient Optimization Techniques被引用 30
一句话总结

本文对单层线性神经网络中丢弃法的隐式偏差提供了理论分析,表明丢弃法通过均衡输入和输出权重重矢量的范数来实现隐式正则化。它证明了丢弃法收敛于最小化路径正则化的解,该正则化通过偏好更平坦、复杂度更低的解,在过参数化设置中确保泛化性能。

ABSTRACT

Algorithmic approaches endow deep learning systems with implicit bias that helps them generalize even in over-parametrized settings. In this paper, we focus on understanding such a bias induced in learning through dropout, a popular technique to avoid overfitting in deep learning. For single hidden-layer linear neural networks, we show that dropout tends to make the norm of incoming/outgoing weight vectors of all the hidden nodes equal. In addition, we provide a complete characterization of the optimization landscape induced by dropout.

研究动机与目标

  • 理解深度学习中丢弃法引入的隐式偏差,特别是在过参数化模型中的表现。
  • 刻画单层线性网络中丢弃法的优化景观。
  • 识别丢弃法收敛的解,特别是在权重重叠的自编码器背景下。
  • 正式建立丢弃法的归纳偏差与路径正则化(一种已知的容量控制机制)之间的联系。
  • 证明丢弃法偏好最小路径范数的解,这在过参数化设置中支持泛化性能。

提出的方法

  • 将带丢弃法的随机梯度下降分析为最小化一个包含权重重矢量L2范数乘积的正则化目标函数。
  • 推导出隐式正则化器的显式形式为 $ \lambda \sum_{i=1}^{r} \|\mathbf{u}_i\|^2 \|\mathbf{v}_i\|^2 $,其中 $ \lambda = \frac{1-\theta}{\theta} $,并将其与路径正则化联系起来。
  • 使用谱分解和正交变换分析临界点及其稳定性。
  • 应用二阶分析(Hessian矩阵与方向导数)对临界点进行分类,判断其为严格鞍点或局部极小值。
  • 证明在丢弃法下,全局极小值在相同模型的所有因子分解中最小化路径范数 $ \psi_2(\mathbf{U}, \mathbf{V}) $。
  • 证明对于权重重叠的自编码器,所有局部极小值均为全局极小值,并满足范数均衡与路径范数最小化。

实验结果

研究问题

  • RQ1在单层线性网络中,丢弃法诱导了何种隐式偏差?
  • RQ2丢弃法的优化景观与标准梯度下降有何不同?
  • RQ3丢弃法是否偏好最小路径正则化的解?若是,为何这能促进泛化?
  • RQ4在所有局部极小值中,解的质量是否等价,特别是在权重重叠自编码器设置下?
  • RQ5能否正式将丢弃法的隐式偏差与路径正则化等已知正则化机制联系起来?

主要发现

  • 丢弃法通过最小化权重重矢量L2范数乘积的平方和,实现隐式正则化,这等价于最小化路径正则化器的平方。
  • 丢弃法目标函数的所有全局极小值均满足 $ \psi_2(\tilde{\mathbf{U}}, \tilde{\mathbf{V}}) = \min\{ \psi_2(\mathbf{U}, \mathbf{V}) \mid \mathbf{U}\mathbf{V}^T = \tilde{\mathbf{U}}\tilde{\mathbf{V}}^T \} $,即在等价因子分解中最小化路径范数。
  • 对于权重重叠的自编码器,所有局部极小值均为全局极小值,并在隐藏单元之间实现范数均衡。
  • 当活跃隐藏单元不对应于数据协方差矩阵的主特征向量时,临界点为严格鞍点。
  • Hessian分析确认非最优临界点为非退化鞍点,从而在梯度下降下可确保收敛至高质量解。
  • 丢弃法的隐式偏差等价于通过路径正则化实现的与规模无关的容量控制,解释了其在过参数化模型中的成功。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。