QUICK REVIEW

[论文解读] Implicit Regularization of Discrete Gradient Dynamics in Linear Neural Networks

Gauthier Gidel, Francis Bach|arXiv (Cornell University)|Apr 30, 2019

Sparse and Compressive Sensing Techniques参考文献 27被引用 27

一句话总结

本文表明，在两层线性神经网络中，离散梯度下降通过按顺序学习回归问题的低秩分量，隐式地实现了正则化，其效果类似于逐步增加秩的降秩回归。与线性模型同时学习所有分量不同，两层结构诱导出一种分层的、逐步学习的路径，从而通过隐式正则化提升泛化性能。

ABSTRACT

When optimizing over-parameterized models, such as deep neural networks, a large set of parameters can achieve zero training error. In such cases, the choice of the optimization algorithm and its respective hyper-parameters introduces biases that will lead to convergence to specific minimizers of the objective. Consequently, this choice can be considered as an implicit regularization for the training of over-parametrized models. In this work, we push this idea further by studying the discrete gradient dynamics of the training of a two-layer linear network with the least-squares loss. Using a time rescaling, we show that, with a vanishing initialization and a small enough step size, this dynamics sequentially learns the solutions of a reduced-rank regression with a gradually increasing rank.

研究动机与目标

理解过参数化线性网络中的离散梯度动力学如何导致隐式正则化。
研究两层线性网络中的优化路径是否与线性模型不同，特别是在分量学习顺序方面。
建立梯度下降在两层网络中收敛至类似逐步增加秩的回归问题近似解的理论条件。
在真实世界数据集和合成数据上对模型假设进行经验验证。

提出的方法

作者分析两层线性网络在最小二乘损失下的离散梯度动力学，通过时间重标定将离散动力学与连续动力学联系起来。
他们提出假设1，该假设弱化了先前工作中使用的标准可交换性条件，从而扩大了适用范围。
该方法涉及证明：在初始化趋于零且步长较小时，动力学按其对回归解的贡献大小顺序学习分量。
理论分析表明，离散动力学收敛至一系列正则化程度逐步降低的降秩回归问题的解。
通过合成数据和真实数据集（MNIST、CIFAR-10、ImageNet）进行经验验证，计算归一化偏差度量（Δxy 和 Δx）以检验假设的有效性。
监控重建误差和迹范数随时间的变化，以比较两层网络与线性模型的表现，确认了分量的顺序学习行为。

实验结果

研究问题

RQ1两层线性网络中的离散梯度下降是否以分层方式学习分量，而非同时学习？
RQ2两层网络的隐式正则化与线性模型相比，在泛化性能方面有何差异？
RQ3理论分析所需的假设在真实世界数据集中在多大程度上成立？
RQ4能否证明两层网络的离散动力学可近似连续动力学在降秩回归中的行为？

主要发现

两层线性网络的离散梯度动力学按顺序学习回归解的分量，对应于最优解的逐步增加秩的近似。
这种顺序学习路径在传统线性模型中不存在，后者同时学习所有分量，表明存在独特的隐式正则化效应。
理论结果表明，在假设1、小步长和初始化趋于零的条件下，动力学收敛至一系列正则化程度逐步降低的降秩回归问题的解。
在MNIST、CIFAR-10和ImageNet上的经验评估显示，归一化偏差度量Δxy和Δx较小（数量级为10^-2至10^-1），表明假设1在实践中合理成立。
在合成实验中，两层网络的迹范数和重建误差随时间呈现阶梯状变化，与理论连续动力学高度吻合；而线性模型则表现出平滑且非分层的行为。
两层网络在矩阵重建性能上优于线性模型，表明其由于分层学习路径而具备更好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。