Skip to main content
QUICK REVIEW

[论文解读] Convergence Analysis of Two-layer Neural Networks with ReLU Activation

Yuanzhi Li, Yuan Yang|arXiv (Cornell University)|May 28, 2017
Stochastic Gradient Optimization Techniques参考文献 23被引用 273
一句话总结

这篇论文证明 SGD 在高斯输入下对于一个两层 ReLU 网络与一个恒等映射收敛到全局最小,使用两阶段收敛框架,并提供支持实验。

ABSTRACT

In recent years, stochastic gradient descent (SGD) based techniques has become the standard tools for training neural networks. However, formal theoretical understanding of why SGD can train neural networks in practice is largely missing. In this paper, we make progress on understanding this mystery by providing a convergence analysis for SGD on a rich subset of two-layer feedforward networks with ReLU activations. This subset is characterized by a special structure called "identity mapping". We prove that, if input follows from Gaussian distribution, with standard $O(1/\sqrt{d})$ initialization of the weights, SGD converges to the global minimum in polynomial number of steps. Unlike normal vanilla networks, the "identity mapping" makes our network asymmetric and thus the global minimum is unique. To complement our theory, we are also able to show experimentally that multi-layer networks with this mapping have better performance compared with normal vanilla networks. Our convergence theorem differs from traditional non-convex optimization techniques. We show that SGD converges to optimal in "two phases": In phase I, the gradient points to the wrong direction, however, a potential function $g$ gradually decreases. Then in phase II, SGD enters a nice one point convex region and converges. We also show that the identity mapping is necessary for convergence, as it moves the initial point to a better place for optimization. Experiment verifies our claims.

研究动机与目标

  • 激发对为什么 SGD 在实际中训练神经网络的理论理解。
  • 引入一个具有恒等映射的两层 ReLU 网络以打破对称性并简化优化。
  • 在高斯输入并且初始值较小的条件下证明向真值 W* 的两阶段收敛。
  • 展示恒等映射对收敛性和性能的必要性及影响。
  • 提供实验证据将理论与观察到的训练动力学对齐。

提出的方法

  • 建立并分析一个具有恒等映射的两层 ReLU 网络:f(x,W)=||ReLU((I+W)^T x)||1。
  • 在学生网络与教师网络之间使用 L2 损失:L(W)=E_x[(f(x,W)−f(x,W∗))^2]。
  • 定义势能函数 g = ∑_i (||e_i+w_i∗||^2 − ||e_i+w_i||^2) 用于研究收敛性。
  • 建立一个两阶段的 SGD 收敛框架:阶段 I 减小 g 并接近某一区域;阶段 II 实现一点凸性并收敛到 W∗。
  • 引入联合的基于泰勒展开的近似,以处理相关的 ReLU 激活和对 W 与 W∗ 的依赖。
  • 证明带有界噪声的小步长 SGD 在给定范数和初始化条件下可收敛。

实验结果

研究问题

  • RQ1在高斯输入下,具有恒等映射的两层 ReLU 网络的 SGD 是否会收敛到真实权重 W∗?
  • RQ2与原生网络相比,恒等映射如何影响损失面和收敛性质?
  • RQ3两阶段框架(基于势的阶段 I 和凸性阶段 II)是否能在小初始化下保证收敛?
  • RQ4初始化以及 W0 和 W∗ 的谱范数界在收敛中起到什么作用?
  • RQ5理论见解是否对除了高斯输入之外的适度分布假设具有鲁棒性?

主要发现

  • 在给定高斯输入和小初始化的条件下,SGD 在多项式步数内收敛到真实权重 W∗。
  • 收敛分两阶段进行:阶段 I 降低势能 g 并朝向有利区域;阶段 II 实现一点凸性并收敛到 W∗。
  • 恒等映射是将初始点移动到易优化区域并在所分析区域内产生唯一全局极小值所必需的。
  • 当存在恒等映射时,零初始化的表现与随机初始化相当,说明映射引入的不对称性。
  • 实验证据表明,带有恒等映射的网络优于原生网络,且带跳跃连接的 ResNet 样结构在 CIFAR-10 上提高了训练和测试性能。
  • 在旋转不变或接近高斯输入分布以及 W∗ 的合理谱范数下,该框架和结果在定性上保持有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。