Skip to main content
QUICK REVIEW

[论文解读] Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations

Yuanzhi Li, Tengyu Ma|arXiv (Cornell University)|Dec 26, 2017
Stochastic Gradient Optimization Techniques被引用 148
一句话总结

本文展示了带过参数化的梯度下降在隐式正则化方面的作用,使其在线性测量下能够恢复一个低秩的 PSD 矩阵,并将分析扩展到具二次激活的一隐含层神经网络。

ABSTRACT

We show that the gradient descent algorithm provides an implicit regularization effect in the learning of over-parameterized matrix factorization models and one-hidden-layer neural networks with quadratic activations. Concretely, we show that given $\ ilde{O}(dr^{2})$ random linear measurements of a rank $r$ positive semidefinite matrix $X^{\\star}$, we can recover $X^{\\star}$ by parameterizing it by $UU^\ op$ with $U\\in \\mathbb R^{d\ imes d}$ and minimizing the squared loss, even if $r \\ll d$. We prove that starting from a small initialization, gradient descent recovers $X^{\\star}$ in $\ ilde{O}(\\sqrt{r})$ iterations approximately. The results solve the conjecture of Gunasekar et al.'17 under the restricted isometry property. The technique can be applied to analyzing neural networks with one-hidden-layer quadratic activations with some technical modifications.

研究动机与目标

  • 理解梯度下降在 RIP 下对过参数化矩阵分解引发的隐式正则化机制。
  • 证明在 UU^T 参数化下,从 O(dr^2 polylog d) 个测量中恢复一个秩为 r 的 PSD 矩阵。
  • 将分析扩展到具有二次激活的一隐含层神经网络。
  • 描述与初始化大小相关的收敛速率和泛化行为。

提出的方法

  • 将 PSD 目标 X* 参数化为 UU^T,其中 U ∈ R^{d×d}。
  • 在 RIP 测量下最小化平方损失 f(U) = (1/2m) ∑_i (y_i - <A_i, UU^T>)^2。
  • 分析梯度下降更新 U_{t+1} = U_t - η∇f(U_t),初始值 U_0 = αB 严格较小。
  • 利用 RIP 表明 M_t 的行为接近于 (UU^T - X*),从而实现对 X* 的收敛。
  • 将 U_tU_t^T - X* 分解为低秩部分加上一个小误差,以便应用浓缩引理。
  • 将这些洞见推广到具二次激活的神经网络,并讨论样本复杂度。

实验结果

研究问题

  • RQ1在 RIP 条件下,GD 对 UU^T 的过参数化分解是否能够从 O(dr^2 polylog d) 个测量中恢复秩 r 的 PSD 矩阵?
  • RQ2初始化大小是否决定泛化误差并防止在过参数化设置下过拟合?
  • RQ3该算法性正则化现象是否能够扩展到具二次激活的一隐含层神经网络?
  • RQ4在该范畴内,有限步长下的梯度下降的迭代复杂度和稳定性属性是什么?
  • RQ5在 RIP 下,秩为 1 与更高秩 (r>1) 的目标之间的分析有何不同?

主要发现

  • 在 RIP 的条件下,GD 从较小的初始化出发,在约 O(sqrt(r)) 次迭代内收敛到 UU^T 接近 X* 的解(取决于初始化的误差)。
  • 泛化(测试)误差与初始化 α 而非参数量级相关,使得对小 α 时近零的泛化误差成为可能。
  • 所需的测量次数随 m ≲ d poly(r log d) 的量级增长,即在给定的 RIP 条件下约为 dr^2 log^3 d。
  • 该框架在矩阵感知背景下证实 Gunasekar 等人关于隐式正则化指向最小秩/迹范数解的猜想。
  • 结果扩展到具二次激活的神经网络,给出 ~O(dr^5 κ^6) 个样本的泛化保证(忽略常数和对数因子)。
  • 实证结果支持泛化依赖于初始化大小,以及在较小 α 下梯度下降在不进行提前停止的情况下也能保持稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。