QUICK REVIEW
[论文解读] Implicit Bias of Gradient Descent on Linear Convolutional Networks
Suriya Gunasekar, Jason D. Lee|arXiv (Cornell University)|Jun 1, 2018
Stochastic Gradient Optimization Techniques参考文献 28被引用 39
一句话总结
该论文表明,深度线性卷积网络上的梯度下降会诱导一种隐式偏差,使解在频域中最小化 ℓ₂/L 桥接惩罚,且随着网络深度增加,稀疏性强度也随之增强。相比之下,全连接线性网络则表现出对 ℓ₂ 最大间隔解的隐式偏差,且与深度无关。
ABSTRACT
We show that gradient descent on full-width linear convolutional networks of depth $L$ converges to a linear predictor related to the $\ell_{2/L}$ bridge penalty in the frequency domain. This is in contrast to linearly fully connected networks, where gradient descent converges to the hard margin linear support vector machine solution, regardless of depth.
研究动机与目标
- 理解不同架构的过参数化线性模型中梯度下降的隐式偏差。
- 研究参数化方式(全连接与卷积)如何影响线性模型优化中的归纳偏差。
- 表征梯度下降在深度线性卷积网络上诱导的隐式正则化。
- 在线性分类背景下,比较线性卷积网络与全连接网络的隐式偏差。
- 分析网络深度在塑造卷积架构上梯度下降隐式偏差中的作用。
提出的方法
- 将线性卷积网络表述为多个全宽卷积的组合,后接一个最终的全连接层。
- 通过学习到的线性预测器的傅里叶变换分析隐式偏差,表明其收敛至最小化 ‖β̂‖₂/L 惩罚的解。
- 使用频域分析来表征梯度下降在卷积网络上诱导的隐式正则化。
- 证明在深度-L 线性卷积网络上,梯度下降收敛至频域中 ℓ₂/L-正则化优化问题的驻点。
- 通过在不同参数化下分析相同优化问题,比较卷积网络与全连接网络的隐式偏差。
- 假设存在充分的过参数化,且梯度下降收敛至全局最小值,重点研究收敛方向而非收敛速度。
实验结果
研究问题
- RQ1在模型容量相同的情况下,梯度下降在全连接网络与线性卷积网络上的隐式偏差有何不同?
- RQ2梯度下降在深度为 L 的深度线性卷积网络上诱导的隐式正则化是什么?
- RQ3线性卷积网络的深度 L 如何影响梯度下降的隐式偏差?
- RQ4梯度下降在卷积网络上是否倾向于选择在频域中稀疏的解?
- RQ5梯度下降在卷积网络上的隐式偏差与原始空间中的最大间隔解相比如何?
主要发现
- 在深度为 L 的深度线性卷积网络上,梯度下降会隐式地将解偏向于最小化频域中的 ℓ₂/L 桥接惩罚。
- 随着网络深度 L 的增加,隐式偏差变得更加倾向于诱导稀疏性,且正则化强度从 ℓ₂ 逐渐减弱至 ℓ₁。
- 相比之下,任意深度的全连接线性网络均收敛至 ℓ₂ 最大间隔解,与深度无关。
- 尽管两种架构均为通用线性预测器,但梯度下降在卷积网络上的隐式偏差与在全连接网络上的偏差本质不同。
- 解的方向收敛至频域中 ℓ₂/L-正则化问题的驻点,表明存在强烈的频域稀疏性归纳偏差。
- 在梯度下降渐近最小化训练损失的假设下,该分析成立,而这一假设在过参数化设置中成立,因为所有局部最小值均为全局最小值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。