QUICK REVIEW

[论文解读] Fast and Scalable Bayesian Deep Learning by Weight-Perturbation in Adam

Mohammad Emtiyaz Khan, Didrik Nielsen|arXiv (Cornell University)|Jun 13, 2018

Gaussian Processes and Bayesian Inference参考文献 39被引用 60

一句话总结

这篇论文提出自然梯度变分方法，使高斯均值场贝叶斯深度学习能够在 Adam 内实现，最小化代码修改，通过在梯度评估期间扰动权重，获得与现有 VI 方法质量相近的不确定性估计，并可能有助于探索。

ABSTRACT

Uncertainty computation in deep learning is essential to design robust and reliable systems. Variational inference (VI) is a promising approach for such computation, but requires more effort to implement and execute compared to maximum-likelihood methods. In this paper, we propose new natural-gradient algorithms to reduce such efforts for Gaussian mean-field VI. Our algorithms can be implemented within the Adam optimizer by perturbing the network weights during gradient evaluations, and uncertainty estimates can be cheaply obtained by using the vector that adapts the learning rate. This requires lower memory, computation, and implementation effort than existing VI methods, while obtaining uncertainty estimates of comparable quality. Our empirical results confirm this and further suggest that the weight-perturbation in our algorithm could be useful for exploration in reinforcement learning and stochastic optimization.

研究动机与目标

在深度学习中激发对不确定性估计以实现鲁棒决策。
开发易于融入现有自适应优化器（如 Adam）的 VI 方法。
在大规模神经网络中减少高斯均值场 VI 的内存、计算和实现成本。
通过权重扰动提供不确定性估计，这也可以在强化学习和随机优化中帮助探索。

提出的方法

为高斯均值场 VI 提出自然梯度变分推断（NGVI）。
表明可以通过在梯度评估期间扰动权重（Vadam）来对 Adam 进行最小修改实现 NGVI。
推导 VON（Variational Online-Newton）和 VOGN（Variational Online Gauss-Newton）更新，作为对 NGVI 的近似，能够在线获得海森信息。
引入 Vprop（Variational RMSprop）作为一个可处理的 RMSprop 类替代，使用梯度大小作为海森近似。
通过在自然参数空间添加自然动量来产生类似 Adam 的更新，开发 Variational Adam（Vadam）。
通过在变分优化（VO）设定中构建 VI，扩展到 Variational AdaGrad（VadaGrad）并推导相应更新。

实验结果

研究问题

RQ1高斯均值场模型的变分推断是否可以像使用 Adam 的最大似然估计那样简单高效地实现？
RQ2在梯度评估期间对权重进行扰动是否能以比传统 VI 更低的内存和计算成本获得可靠的不确定性估计？
RQ3在标准深度学习代码库中，所提出的近似（VON、VOGN、Vprop、Vadam、VadaGrad）在稳定性和可操作性方面有何比较？
RQ4所得不确定性估计是否可用于提升强化学习和随机优化中的探索？

主要发现

通过在 Adam 内对权重进行扰动得到的不确定性估计与现有 VI 方法的质量相当。
所提出的近似使得 VI 的内存、计算和实现成本低于传统 VI 方法。
Vadam 提供了一个带自然动量的类似 Adam 的更新，与标准优化器实践保持一致，便于集成到现有代码库。
Vprop 提供了一个实用的 RMSprop 类方法，带有权重扰动和带不确定性特征的扰动方差。
基于 GM 的近似（VOGN、Vprop）具有可预测的偏差，取决于小批量大小，揭示了准确性与效率之间的权衡。
经验结果表明权重扰动可帮助在强化学习和随机优化中进行探索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。