Skip to main content
QUICK REVIEW

[论文解读] Exponential Convergence Time of Gradient Descent for One-Dimensional Deep Linear Neural Networks

Ohad Shamir|arXiv (Cornell University)|Sep 23, 2018
Stochastic Gradient Optimization Techniques被引用 27
一句话总结

该论文表明,对于深度一维线性神经网络,即使目标函数是凸函数且不存在不良局部极小值,标准随机初始化下的梯度下降仍可能需要指数时间——具体为 $ε(\tilde{\mathcal{O}}(k))$ 次迭代才能收敛,这揭示了当深度 $k$ 较大时,通过梯度下降训练深度线性模型存在根本性困难。

ABSTRACT

We study the dynamics of gradient descent on objective functions of the form $f(\\prod_{i=1}^{k} w_i)$ (with respect to scalar parameters $w_1,\\ldots,w_k$), which arise in the context of training depth-$k$ linear neural networks. We prove that for standard random initializations, and under mild assumptions on $f$, the number of iterations required for convergence scales exponentially with the depth $k$. We also show empirically that this phenomenon can occur in higher dimensions, where each $w_i$ is a matrix. This highlights a potential obstacle in understanding the convergence of gradient-based methods for deep linear neural networks, where $k$ is large.

研究动机与目标

  • 研究随机初始化下深度线性神经网络中梯度下降的有限时间收敛行为。
  • 确定目标函数中不存在局部极小值是否能保证基于梯度的方法实现高效收敛。
  • 分析标准初始化方法(如 Xavier)是否会导致深度线性模型中出现指数级收敛时间。
  • 探讨在一维设置下观察到的指数收敛时间是否可推广至基于矩阵的高维线性网络。

提出的方法

  • 分析目标函数 $F(w_1, \dots, w_k) = f(\prod_{i=1}^k w_i)$ 上梯度下降的优化动态,其中每个 $w_i$ 为标量,$f$ 为凸且可微函数。
  • 在 $f$ 的温和假设下,证明梯度下降在随机初始化下需要 $\exp(\Omega(k))$ 次迭代才能收敛。
  • 采用两阶段分析:首先证明权重乘积可长期保持在零附近;其次证明当某一权重变为负且绝对值较大时,由于梯度较小,收敛被延迟。
  • 运用集中与扰动分析方法,限制权重更新的大小,并证明当权重乘积穿过零点时,收敛速度呈指数级缓慢。
  • 通过实验验证,在每个 $w_i$ 为矩阵的高维设置中,类似的指数收敛时间也可能出现。
  • 利用动态中的对称性与符号翻转不变性,证明一旦关键权重变为负值,系统行为等价于原始情况的镜像版本,从而保持缓慢收敛特性。

实验结果

研究问题

  • RQ1在随机初始化下,尽管不存在局部极小值,深度一维线性网络上的梯度下降是否能在多项式时间内收敛?
  • RQ2梯度下降在深度线性模型上的收敛时间对网络深度 $k$ 的依赖关系如何?
  • RQ3当权重为矩阵(即在高维设置下)时,标量网络中观察到的指数收敛时间是否依然存在?
  • RQ4Xavier 或近似单位初始化等标准初始化方案如何影响深度线性网络中梯度下降的收敛速度?
  • RQ5从单位初始化出发的小扰动能否防止深度线性模型中出现指数级收敛时间?

主要发现

  • 即使目标函数为凸且无不良局部极小值,随机初始化下深度一维线性网络的梯度下降仍需 $\exp(\Omega(k))$ 次迭代才能收敛。
  • 收敛时间随深度 $k$ 呈指数增长,该下界在 $f$ 的温和假设及标准初始化方案(包括 Xavier 和近似单位初始化)下均成立。
  • 建立了收敛至 $\epsilon$-最优解的上界为 $\exp(\tilde{\mathcal{O}}(k)) \cdot \max\{1, \log(1/\epsilon)\}$ 次迭代。
  • 指数收敛时间的成因在于梯度下降可能长期滞留在权重乘积接近零的区域,导致梯度消失。
  • 实验结果表明,当每个权重为矩阵时,相同的指数收敛行为也可能出现在高维设置中,表明该现象不限于标量网络。
  • 一旦某一权重变为负且绝对值较大,系统动态将对称于具有正权重的镜像情形,从而保持缓慢收敛速率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。