QUICK REVIEW

[论文解读] A Variational Analysis of Stochastic Gradient Algorithms

Stephan Mandt, Matthew D. Hoffman|arXiv (Cornell University)|Feb 8, 2016

Stochastic Gradient Optimization Techniques参考文献 20被引用 58

一句话总结

本文通过最小化KL散度将SGD的平稳分布与真实后部分布匹配，提出使用固定学习率的随机梯度下降（SGD）作为变分推断方法。通过将SGD建模为多变量Ornstein-Uhlenbeck过程，作者推导出最优学习率和预条件矩阵，使平稳分布与后部分布一致，从而实现高效的近似贝叶斯推断与超参数优化。

ABSTRACT

Stochastic Gradient Descent (SGD) is an important algorithm in machine learning. With constant learning rates, it is a stochastic process that, after an initial phase of convergence, generates samples from a stationary distribution. We show that SGD with constant rates can be effectively used as an approximate posterior inference algorithm for probabilistic modeling. Specifically, we show how to adjust the tuning parameters of SGD such as to match the resulting stationary distribution to the posterior. This analysis rests on interpreting SGD as a continuous-time stochastic process and then minimizing the Kullback-Leibler divergence between its stationary distribution and the target posterior. (This is in the spirit of variational inference.) In more detail, we model SGD as a multivariate Ornstein-Uhlenbeck process and then use properties of this process to derive the optimal parameters. This theoretical framework also connects SGD to modern scalable inference algorithms; we analyze the recently proposed stochastic gradient Fisher scoring under this perspective. We demonstrate that SGD with properly chosen constant rates gives a new way to optimize hyperparameters in probabilistic models.

研究动机与目标

将具有固定学习率的随机梯度下降（SGD）重新框架化为一种实用的近似贝叶斯推断方法。
最小化SGD平稳分布与真实后部分布之间的Kullback-Leibler（KL）散度。
推导SGD的最优调参参数——学习率、小批量大小和预条件矩阵，以使平稳分布与后部分布相匹配。
基于Ornstein-Uhlenbeck过程框架，为随机梯度Fisher评分（SGFS）提供理论依据。
通过单次使用固定学习率的SGD运行，实现后验推断与超参数优化的联合执行。

提出的方法

将SGD建模为连续时间的多变量Ornstein-Uhlenbeck（OU）过程，以解析方式刻画其平稳分布。
利用OU过程的性质，以闭式表达计算平稳分布与目标后验分布之间的KL散度。
通过最小化KL散度推导最优学习率与预条件矩阵，将其与最优解处的Hessian矩阵和噪声协方差相关联。
将该框架应用于分析与验证随机梯度Fisher评分（SGFS），表明其预条件矩阵在此变分视角下为最优。
提出SGFS中自由噪声参数的选取准则，以提升数值稳定性，并分析对角预条件矩阵近似的影响。
证明固定SGD可同时用于后验抽样与超参数优化，实现经验贝叶斯超参数优化。

实验结果

研究问题

RQ1具有固定学习率的随机梯度下降能否作为有效的近似贝叶斯推断方法？
RQ2学习率、小批量大小与预条件矩阵的最优值是什么，可使SGD平稳分布与真实后部分布之间的KL散度最小化？
RQ3SGD的Ornstein-Uhlenbeck过程近似如何实现平稳分布与KL散度的解析计算？
RQ4在所提出的变分框架下，SGFS所使用的预条件矩阵是否为最优？
RQ5固定SGD能否用于在贝叶斯模型中同时执行后验推断与超参数优化？

主要发现

在适当参数下，固定SGD的平稳分布能紧密逼近真实后部分布，从而实现通过SGD进行变分推断。
最优学习率与噪声协方差矩阵的迹成反比，与自适应滤波中的稳定性和性能原则一致。
SGD的最优预条件矩阵为噪声协方差矩阵的逆矩阵，从而为SGFS方法提供理论支持并实现推广。
该框架为平稳分布与后验之间的KL散度提供了闭式表达，使超参数的解析优化成为可能。
该方法可在单次SGD运行中实现后验采样与超参数优化的联合执行，已在具有正态先验的贝叶斯多项式逻辑回归中得到验证。
理论分析表明，AdaGrad、RMSProp与经典Fisher评分在不同假设下均为所提变分框架的特例。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。