[论文解读] How Much Over-parameterization Is Sufficient to Learn Deep ReLU Networks?
本文证明,对于深度 ReLU 网络,仅需多对数过参数化——即网络宽度随样本量 $ n $ 和误差倒数 $ \epsilon^{-1} $ 的多对数函数增长——梯度下降训练即可实现全局收敛与泛化。作者在 NTRF 函数类中引入一种放松的线性逼近误差条件,从而获得更紧致的收敛与泛化界,其结果与两层网络的最先进水平相当。
A recent line of research on deep learning focuses on the extremely over-parameterized setting, and shows that when the network width is larger than a high degree polynomial of the training sample size $n$ and the inverse of the target error $ε^{-1}$, deep neural networks learned by (stochastic) gradient descent enjoy nice optimization and generalization guarantees. Very recently, it is shown that under certain margin assumptions on the training data, a polylogarithmic width condition suffices for two-layer ReLU networks to converge and generalize (Ji and Telgarsky, 2019). However, whether deep neural networks can be learned with such a mild over-parameterization is still an open question. In this work, we answer this question affirmatively and establish sharper learning guarantees for deep ReLU networks trained by (stochastic) gradient descent. In specific, under certain assumptions made in previous work, our optimization and generalization guarantees hold with network width polylogarithmic in $n$ and $ε^{-1}$. Our results push the study of over-parameterized deep neural networks towards more practical settings.
研究动机与目标
- 解决深度 ReLU 网络是否可实现多对数过参数化训练的开放问题,类似于近期关于两层网络的成果。
- 在弱于以往工作的过参数化条件下,提升深度网络的泛化与优化保证。
- 通过允许恒定的线性逼近误差(而非近乎完美的逼近),将 NTRF 函数类框架扩展至深度网络。
- 为深度网络设置下的 GD 与 SGD 建立更紧致的样本复杂度界,使其与两层网络的最佳已知结果一致。
- 将理论结果推广至部分数据可分的情形,表明当大部分数据被良好分离时,可实现高效学习,且过参数化程度极低。
提出的方法
- 提出一种基于 NTRF(神经正切随机特征)函数类的新型理论框架,该类将函数表征为网络初始权重所导出的随机特征的线性组合。
- 引入一种放松条件,允许真实网络与其初始化时线性化之间的线性逼近误差为常数,而非要求高精度逼近。
- 在该放松条件下分析梯度下降(GD)与随机梯度下降(SGD),证明当网络足够宽时,可实现全局收敛至零训练误差。
- 利用 Rademacher 复杂度推导泛化界,表明即使在 $ m \in \widetilde{\Omega}(1) $ 的情况下,统计误差仍随宽度 $ m $ 增大而减小,无需满足 $ m \gg n $。
- 建立 GD 的样本复杂度界为 $ \widetilde{\mathcal{O}}(\epsilon^{-2}) $,SGD 的样本复杂度界为 $ \widetilde{\mathcal{O}}(\epsilon^{-1}) $,其紧致性优于以往深度网络结果,并与两层网络的最先进界一致。
- 将分析扩展至具有部分可分性的数据,表明当大部分数据被良好分离时,半径为 $ R = \widetilde{\mathcal{O}}(1) $ 的 NTRF 函数类可实现 $ \epsilon $-误差泛化。
实验结果
研究问题
- RQ1深度 ReLU 网络是否可实现多对数过参数化训练,类似于近期关于两层 ReLU 网络的成果?
- RQ2允许恒定的线性逼近误差(而非高精度逼近)是否仍能保证深度网络的全局收敛与泛化?
- RQ3在更弱的宽度要求下,能否为深度 ReLU 网络中的 GD 与 SGD 推导出更紧致的泛化与收敛界?
- RQ4该理论框架如何扩展至具有部分可分性的数据?实现 $ \epsilon $-泛化所需宽度是多少?
- RQ5深度网络中 GD 与 SGD 的样本复杂度界是否与现有结果一致或更优,特别是在两层情况下?
主要发现
- 多对数网络宽度——具体而言 $ m = \text{poly}(R) $,其中 $ R $ 为 NTRF 函数类的半径——足以使 GD 实现全局收敛并学习深度 ReLU 网络。
- 泛化误差在宽范围的宽度 $ m \in \widetilde{\Omega}(1) $ 下均会减小,这放宽了以往基于 NTK 分析中要求 $ m \gg n $ 的典型设定。
- GD 的样本复杂度为 $ \widetilde{\mathcal{O}}(\epsilon^{-2}) $,SGD 的样本复杂度为 $ \widetilde{\mathcal{O}}(\epsilon^{-1}) $,其紧致性优于先前结果,并与两层 ReLU 网络的最佳已知结果一致。
- 即使网络与其线性化之间存在恒定的线性逼近误差,理论保证依然成立,相比先前工作,其假设条件得到显著放松。
- 当大部分训练数据被良好分离时,半径为 $ R = \widetilde{\mathcal{O}}(1) $ 的 NTRF 函数类可实现 $ \epsilon $-泛化,表明对数据结构具有鲁棒性。
- 在二值 CIFAR-10 子集上的实验验证表明,实现零训练误差所需的最小网络宽度随样本量呈多对数增长,与理论预测一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。