[论文解读] On the Margin Theory of Feedforward Neural Networks
本文证明了在参数量过大的ReLU前馈网络中,使用弱正则化的交叉熵损失函数时,全局最小值点处可实现最大归一化间隔,从而通过间隔最大化解释了泛化性能的提升。研究显示,无限宽的两层网络可达到最优泛化界,在自然实例中优于核方法,并证明了在无限网络上扰动梯度流的多项式时间收敛性。
Past works have shown that, somewhat surprisingly, over-parametrization can help generalization in neural networks. Towards explaining this phenomenon, we adopt a margin-based perspective. We establish: 1) for multi-layer feedforward relu networks, the global minimizer of a weakly-regularized cross-entropy loss has the maximum normalized margin among all networks, 2) as a result, increasing the over-parametrization improves the normalized margin and generalization error bounds for two-layer networks. In particular, an infinite-size neural network enjoys the best generalization guarantees. The typical infinite feature methods are kernel methods; we compare the neural net margin with that of kernel methods and construct natural instances where kernel methods have much weaker generalization guarantees. We validate this gap between the two approaches empirically. Finally, this infinite-neuron viewpoint is also fruitful for analyzing optimization. We show that a perturbed gradient flow on infinite-size networks finds a global optimizer in polynomial time.
研究动机与目标
- 解释为何过参数化能提升深度神经网络的泛化性能。
- 建立弱正则化交叉熵损失在ReLU网络中的全局最小值点可实现最大归一化间隔。
- 比较无限宽神经网络与核方法的泛化性能。
- 利用扰动梯度流分析无限宽网络中的优化动力学。
提出的方法
- 分析弱正则化交叉熵损失下的多层ReLU网络,推导其间隔最大化特性。
- 推导出损失函数的全局最小值点对应于所有网络中最大的归一化间隔。
- 在特定数据分布下,比较无限宽神经网络与核方法的归一化间隔。
- 通过实验验证在自然实例中神经网络与核方法之间存在显著的泛化差距。
- 在无限宽网络上引入扰动梯度流动力学,以分析优化收敛性。
- 证明在无限网络上,扰动梯度流可在多项式时间内收敛至全局最优解。
实验结果
研究问题
- RQ1过参数化是否通过在ReLU网络中最大化归一化间隔来提升泛化性能?
- RQ2与有限宽网络相比,无限宽的两层网络能否实现最优的泛化保证?
- RQ3在自然数据设置下,无限宽神经网络的归一化间隔与核方法相比如何?
- RQ4在无限宽网络上,扰动梯度流能否在多项式时间内收敛至全局最优解?
主要发现
- 在多层ReLU网络中,弱正则化交叉熵损失的全局最小值点可实现所有网络中最大的归一化间隔。
- 增加过参数化可提升两层网络的归一化间隔与泛化误差界。
- 无限宽两层网络可实现最优的泛化保证,在自然实例中优于核方法。
- 实验结果证实,在构造的自然示例中,神经网络与核方法之间存在显著的泛化差距。
- 在无限宽网络上,扰动梯度流可在多项式时间内收敛至全局最优解。
- 基于间隔的分析为深度学习中过参数化的泛化优势提供了理论基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。