[论文解读] Multiplicative noise and heavy tails in stochastic optimization
本文将随机优化器建模为带乘性噪声的马尔可夫随机递归,并展示了重尾的平稳行为,从而在包括 SGD、动量、Adam 以及随机牛顿等优化器中提升基底跳出和探索。
Although stochastic optimization is central to modern machine learning, the precise mechanisms underlying its success, and in particular, the precise role of the stochasticity, still remain unclear. Modelling stochastic optimization algorithms as discrete random recurrence relations, we show that multiplicative noise, as it commonly arises due to variance in local rates of convergence, results in heavy-tailed stationary behaviour in the parameters. A detailed analysis is conducted for SGD applied to a simple linear regression problem, followed by theoretical results for a much larger class of models (including non-linear and non-convex) and optimizers (including momentum, Adam, and stochastic Newton), demonstrating that our qualitative results hold much more generally. In each case, we describe dependence on key factors, including step size, batch size, and data variability, all of which exhibit similar qualitative behavior to recent empirical results on state-of-the-art neural network models from computer vision and natural language processing. Furthermore, we empirically demonstrate how multiplicative noise and heavy-tailed structure improve capacity for basin hopping and exploration of non-convex loss surfaces, over commonly-considered stochastic dynamics with only additive noise and light-tailed structure.
研究动机与目标
- 对随机优化进行动机化并形式化为马尔可夫随机递归关系,以研究其平稳行为。
- 证明乘性噪声会产生参数的重尾(幂律)平稳分布。
- 分析步长、批量大小和数据变异性如何影响尾部行为及其对泛化的含义。
- 将线性回归情形的结果扩展到更广泛的凸与非凸目标,以及包括动量、Adam 和随机牛顿在内的优化器。
- 提供经验证据,表明重尾波动在非凸地形中改善基底跳出与探索。
提出的方法
- 将随机优化更新建模为随机递归关系 W_{k+1}=A_k W_k + B_k(线性情形),并扩展到一般 Ψ,使 W_{k+1}=Ψ_k(W_k)。
- 刻画何时平稳分布具有重尾(幂律),并在乘性噪声下推导尾部指数。
- 推导一般 Lipschitz 随机优化器中幂律尾部的充分条件(定理 1)。
- 将尾部行为与算法因素(如批量大小、步长和数据离散性)联系起来。
- 给出抽象准则(引理 3),用于遍历马尔可夫链中的重尾,超越 Lipschitz 设置。
- 联系连续时间类比并讨论对 SG-MCMC 与 Langevin 型模型的含义。
实验结果
研究问题
- RQ1在何种条件下,由乘性噪声引起的随机优化算法会呈现重尾平稳分布?
- RQ2步长、批量大小和数据变异性如何影响尾部指数及探索动态?
- RQ3在像 SGD、Adam 和随机牛顿等优化器中,重尾波动是否在非凸损失景观中增强基底跳出与探索?
- RQ4线性 GD 的特殊情况与一般 Lipschitz 模型能否在马尔可夫链框架下统一,以预测尾部行为?
- RQ5乘性噪声驱动的重尾对深度学习中的泛化与优化动态有何影响?
主要发现
- 乘性噪声可以在随机优化器中产生重尾平稳分布,即使数据为轻尾分布。
- 在线性 SGD 最小二乘情形下识别出三种尾部区间,其中重尾的乘性噪声在平稳状态下产生幂律尾部。
- 尾部的厚重度取决于批量大小、步长、数据离散性、正则化以及 Hessian 条件数,对探索和泛化有影响。
- 自适应优化器如动量和 Adam 可以通过几何衰减抑制重尾,从而影响探索与开发(利用)之间的平衡。
- 经验证据表明,与纯 additive 噪声相比,乘性噪声有利于非凸景观中的基底跳出与探索。
- 结果将离散时间马尔可夫分析与连续 Langevin 近似联系起来,强调乘性噪声在随机优化中的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。