Skip to main content
QUICK REVIEW

[论文解读] Quadratic Suffices for Over-parametrization via Matrix Chernoff Bound

Zhao Song, Xin Yang|arXiv (Cornell University)|Jun 9, 2019
Stochastic Gradient Optimization Techniques参考文献 45被引用 55
一句话总结

该论文收紧了两层 ReLU 网络训练的过参数化界限,展示了对梯度下降达到全局最小值所需的更宽的 m 的要求,并通过矩阵 Chernoff 边界实现对失败概率的更快依赖以提高收敛速度。

ABSTRACT

We improve the over-parametrization size over two beautiful results [Li and Liang' 2018] and [Du, Zhai, Poczos and Singh' 2019] in deep learning theory.

研究动机与目标

  • 研究两层神经网络在可证明学习和泛化方面所需的最小过参数化。
  • 改进关于数据规模 n 与失败概率 δ 的宽度 m 的现有界限。
  • 使用 Matrix Chernoff 提供集中性分析,以获得更紧的概率保证。
  • 在过参数化下,探索收敛行为与正则化效应。

提出的方法

  • 定义与数据相关的 Gram 矩阵 H(w) 及其连续形式 H^{cts} 与离散形式 H^{dis}。
  • 使用矩阵 Chernoff 型集中性来界定随机矩阵和的谱范数,将对 δ 的依赖改进为 poly(log(1/δ)) 。
  • 界定连续 Gram 矩阵与离散 Gram 矩阵之间的差异,以确保谱接近,其 m 取决于 λ, α, β, θ。
  • 分析权重更新如何使 w 保持在受控的球内,从而保持 H(w) 的正最小特征值 λ。
  • 证明当 m = Ω(λ^{-4} n^{4} poly(log(n/δ))) 时,梯度下降在高概率下收敛到全局最小值。
  • 在额外数据假设下的改进导致 m = Ω(λ^{-4} n^{3} α poly(log(n/δ))) 以及 m = Ω(λ^{-4} n^{2} α(α+θ^2) poly(log(n/δ)))。
  • 给出在过参数化下的训练误差行为和泛化的非正式陈述。

实验结果

研究问题

  • RQ1给定 n 个数据点的情况下,梯度下降在两层 ReLU 网络中找到全局最小值所需的最小过参数化(宽度 m)是多少?
  • RQ2失败概率 δ 如何影响所需的宽度 m?是否可以将对 δ 的依赖从 1/δ 改进为多项式对数形式的 poly(log(1/δ))?
  • RQ3随机矩阵的集中性结果(Matrix Chernoff)是否能给出比以往工作更紧的过参数化界限?
  • RQ4数据相关属性(α、β、θ)如何影响所需的 m 和收敛速度?
  • RQ5正则化对过参数化下的训练收敛和泛化有何影响?

主要发现

  • 采用随机初始化的梯度下降在高概率下收敛到全局最小值,当 m = Ω(λ^{-4} n^{4} poly(log(n/δ)))。
  • 在某些数据属性下,宽度界限改进为 m = Ω(λ^{-4} n^{3} α poly(log(n/δ))).
  • 在进一步假设下,界限降低为 m = Ω(λ^{-4} n^{2} α(α+θ^{2}) poly(log(n/δ))).
  • 对失败概率 δ 的依赖从对 δ 的多项式形式转为对 log(1/δ) 的多项式形式。
  • 分析将神经网络宽度与随机矩阵和的集中性通过 Matrix Chernoff 边界联系起来。
  • 论文还讨论了正则化下的训练以及在过参数化下的泛化含义。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。