[论文解读] Polylogarithmic width suffices for gradient descent to achieve arbitrarily small test error with shallow ReLU networks
该论文表明,对于宽度为多对数尺度(具体而言,宽度超过多对数函数(n, 1/ε, 1/δ))的两层ReLU网络,梯度下降法可在O(1/ε)次迭代内实现任意小的测试误差ε,前提是训练样本数量为Ω(1/ε²)。关键贡献在于证明了此类宽度足以实现泛化,即使在标签随机的情况下也成立,原因在于极限核的边界性质。
Recent work has revealed that overparameterized networks trained by gradient descent achieve arbitrarily low training error, and sometimes even low test error. The required width, however, is always polynomial in at least one of the sample size n, the (inverse) training error 1/epsilon, and the (inverse) failure probability 1/delta. This work shows that O(1/epsilon) iterations of gradient descent on two-layer networks of any width exceeding polylog(n, 1/epsilon, 1/delta) and Omega(1/epsilon^2) training examples suffices to achieve a test error of epsilon. The analysis further relies upon a margin property of the limiting kernel, which is guaranteed positive, and can distinguish between true labels and random labels.
研究动机与目标
- 弥合过参数化网络在实践中实现低训练误差与实现低测试误差之间的差距。
- 确定多对数宽度网络在梯度下降下是否能够实现良好泛化,而非必须依赖多项式宽度。
- 分析极限核的边界性质在区分真实标签与随机标签中的作用。
- 确立O(1/ε)次迭代足以在最小宽度要求下实现测试误差ε。
提出的方法
- 分析在n、1/ε和1/δ的多对数尺度范围内,两层ReLU网络在宽度为多对数尺度时的梯度下降动力学。
- 利用极限核中的边界性质,该性质被证明为正,并能将真实标签与随机标签分离。
- 通过迭代优化分析,证明在O(1/ε)步内可收敛至低测试误差。
- 通过将网络宽度与核在标签噪声下维持边界的能力相联系,建立泛化保证。
- 依赖神经正切核(NTK)框架的理论分析,推导出泛化边界。
实验结果
研究问题
- RQ1在宽度为多对数尺度的浅层ReLU网络上,梯度下降能否实现任意小的测试误差?
- RQ2在梯度下降下,实现泛化的最小网络宽度是多少,且其规模是否超越多项式量级?
- RQ3极限核的边界性质如何影响过参数化网络的泛化性能?
- RQ4当标签为随机时,若核能保持边界,网络是否仍能实现泛化?
主要发现
- 多对数宽度网络——具体而言,宽度超过多对数函数(n, 1/ε, 1/δ)——足以使梯度下降实现测试误差ε。
- 在Ω(1/ε²)个训练样本下,O(1/ε)次梯度下降迭代足以达到测试误差ε。
- 极限核表现出正的边界性质,使其能够区分真实标签与随机标签。
- 由于核的边界性质,即使在标签噪声下也能实现泛化,而不仅仅是由于过参数化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。