Skip to main content
QUICK REVIEW

[论文解读] Which Neural Net Architectures Give Rise To Exploding and Vanishing Gradients?

Boris Hanin|arXiv (Cornell University)|Jan 11, 2018
Neural Networks and Applications被引用 138
一句话总结

本文对随机初始化的全连接 ReLU 网络中的梯度波动进行了严格分析,结果表明 输入-输出 雅可比矩阵条目的方差随隐含层宽度倒数之和的架构相关项呈指数级增长。给出有限宽度结果以及退火/固定状态下的 EVGP 定义。

ABSTRACT

We give a rigorous analysis of the statistical behavior of gradients in a randomly initialized fully connected network N with ReLU activations. Our results show that the empirical variance of the squares of the entries in the input-output Jacobian of N is exponential in a simple architecture-dependent constant beta, given by the sum of the reciprocals of the hidden layer widths. When beta is large, the gradients computed by N at initialization vary wildly. Our approach complements the mean field theory analysis of random networks. From this point of view, we rigorously compute finite width corrections to the statistics of gradients at the edge of chaos.

研究动机与目标

  • 在深度全连接 ReLU 网络中动员 EVGP 问题并将训练动力学与架构联系起来。
  • 推导雅可比矩的有限深度/宽度公式,并识别一个关键的架构统计量。
  • 通过退火与固定状态下的 EVGP 特征,揭示其与层宽分布的关系并明确何时发生 EVGP。
  • 为初始化阶段的架构设计提供减缓 EVGP 的指导。

提出的方法

  • 推导随机权重和偏置下全连接 ReLU 网络的输入-输出雅可比条目的联合偶矩的精确公式(有限深度/宽度)。
  • 表明梯度平方的经验方差在 beta = sum_j 1/n_j 上指数级增长,其中 n_j 为隐藏层宽度。
  • 证明 EVGP 的发生仅在架构层面对独立初始化且方差正确时才相关(定义 1)。
  • 将退火和固定状态下的 EVGP 及其等价性定义清晰化:若 sum_j 1/n_j < ∞,则 EVGP 可避免;否则将发生 EVGP。
  • 计算边界混沌处的有限宽度修正并将其与平均场理论联系起来。

实验结果

研究问题

  • RQ1在 ReLU 网络中哪些深度和隐藏层宽度的组合在初始化时会出现 EVGP?
  • RQ2有限宽度和深度如何影响输入-输出雅可比的统计量?
  • RQ3在合适的初始化下,EVGP 是否仅取决于架构而非具体权重/偏置分布?
  • RQ4哪些架构选择在初始化时可最小化梯度方差?
  • RQ5在有限宽度网络中,退火与固定状态的 EVGP 概念如何关联?

主要发现

  • 输入-输出雅可比条目平方的经验方差在 beta = sum_j 1/n_j 上呈指数增长。
  • EVGP 的出现当且仅当 beta 较大,且方差增长与架构相关(在正确方差缩放下,与权重分布无关)。
  • 若 sum_j 1/n_j < ∞,在退火与固定状态下架构均可避免 EVGP;若不满足,则预计会出现 EVGP。
  • 对于固定输入,E[Z_pq^2] = 1/n_0,且高阶矩随 sum_j 1/n_j 指数增长;矩通过路径基的组合计数给出(定理 3)。
  • 当隐藏宽度相等时,均值场类型不等式达到等号,提示对称的架构有利于稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。