QUICK REVIEW
[论文解读] Quadratic Suffices for Over-parametrization via Matrix Chernoff Bound
Zhao Song, Xin Yang|arXiv (Cornell University)|Jun 9, 2019
Stochastic Gradient Optimization Techniques参考文献 45被引用 55
一句话总结
该论文收紧了两层 ReLU 网络训练的过参数化界限,展示了对梯度下降达到全局最小值所需的更宽的 m 的要求,并通过矩阵 Chernoff 边界实现对失败概率的更快依赖以提高收敛速度。
ABSTRACT
We improve the over-parametrization size over two beautiful results [Li and Liang' 2018] and [Du, Zhai, Poczos and Singh' 2019] in deep learning theory.
研究动机与目标
- 研究两层神经网络在可证明学习和泛化方面所需的最小过参数化。
- 改进关于数据规模 n 与失败概率 δ 的宽度 m 的现有界限。
- 使用 Matrix Chernoff 提供集中性分析,以获得更紧的概率保证。
- 在过参数化下,探索收敛行为与正则化效应。
提出的方法
- 定义与数据相关的 Gram 矩阵 H(w) 及其连续形式 H^{cts} 与离散形式 H^{dis}。
- 使用矩阵 Chernoff 型集中性来界定随机矩阵和的谱范数,将对 δ 的依赖改进为 poly(log(1/δ)) 。
- 界定连续 Gram 矩阵与离散 Gram 矩阵之间的差异,以确保谱接近,其 m 取决于 λ, α, β, θ。
- 分析权重更新如何使 w 保持在受控的球内,从而保持 H(w) 的正最小特征值 λ。
- 证明当 m = Ω(λ^{-4} n^{4} poly(log(n/δ))) 时,梯度下降在高概率下收敛到全局最小值。
- 在额外数据假设下的改进导致 m = Ω(λ^{-4} n^{3} α poly(log(n/δ))) 以及 m = Ω(λ^{-4} n^{2} α(α+θ^2) poly(log(n/δ)))。
- 给出在过参数化下的训练误差行为和泛化的非正式陈述。
实验结果
研究问题
- RQ1给定 n 个数据点的情况下,梯度下降在两层 ReLU 网络中找到全局最小值所需的最小过参数化(宽度 m)是多少?
- RQ2失败概率 δ 如何影响所需的宽度 m?是否可以将对 δ 的依赖从 1/δ 改进为多项式对数形式的 poly(log(1/δ))?
- RQ3随机矩阵的集中性结果(Matrix Chernoff)是否能给出比以往工作更紧的过参数化界限?
- RQ4数据相关属性(α、β、θ)如何影响所需的 m 和收敛速度?
- RQ5正则化对过参数化下的训练收敛和泛化有何影响?
主要发现
- 采用随机初始化的梯度下降在高概率下收敛到全局最小值,当 m = Ω(λ^{-4} n^{4} poly(log(n/δ)))。
- 在某些数据属性下,宽度界限改进为 m = Ω(λ^{-4} n^{3} α poly(log(n/δ))).
- 在进一步假设下,界限降低为 m = Ω(λ^{-4} n^{2} α(α+θ^{2}) poly(log(n/δ))).
- 对失败概率 δ 的依赖从对 δ 的多项式形式转为对 log(1/δ) 的多项式形式。
- 分析将神经网络宽度与随机矩阵和的集中性通过 Matrix Chernoff 边界联系起来。
- 论文还讨论了正则化下的训练以及在过参数化下的泛化含义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。