[论文解读] Cyclical Stochastic Gradient MCMC for Bayesian Deep Learning
本文引入带循环保循 SG-MCMC(cSG-MCMC)及其循环步长调度,能够在贝叶斯深度学习中自动探索多模态后验分布,并提供非渐进收敛理论以及包括 ImageNet 在内的大量实验。
The posteriors over neural network weights are high dimensional and multimodal. Each mode typically characterizes a meaningfully different representation of the data. We develop Cyclical Stochastic Gradient MCMC (SG-MCMC) to automatically explore such distributions. In particular, we propose a cyclical stepsize schedule, where larger steps discover new modes, and smaller steps characterize each mode. We also prove non-asymptotic convergence of our proposed algorithm. Moreover, we provide extensive experimental results, including ImageNet, to demonstrate the scalability and effectiveness of cyclical SG-MCMC in learning complex multimodal distributions, especially for fully Bayesian inference with modern deep neural networks.
研究动机与目标
- 将贝叶斯深度学习作为量化神经网络权重不确定性的原则性方法进行动机阐述。
- 开发循环步长的 SG-MCMC 方法,以高效探索高度多模态的权重后验分布。
- 在循环调度下提供非渐进收敛的理论保证。
- 通过大规模实验(如 ImageNet)和不确定性估计,展示 cSG-MCMC 的可扩展性与有效性。
提出的方法
- 提出一个用于 SG-MCMC 的循环余弦步长调度,在探索阶段使用较大步长进行全局搜索、在局部采样阶段使用较小步长进行局部采样。
- 引入两阶段流程:搜索阶段(大步长、高扰动)和采样阶段(小步长、局部密度估计)。
- 使用系统温度来控制探索与采样,T=0 用于烧入,T=1 用于采样,并在每个循环内通过 β 阈值切换阶段。
- 将探索视为暖启动的过程,周期性地以大步长重新初始化以跳出当前模态。
- 提供跨循环的加权样本组合方案,以整合来自不同模态的信息。
实验结果
研究问题
- RQ1循环 SG-MCMC 能否有效地在现代神经网络中探索并描述多模态权重后验?
- RQ2相较于传统的递减步长 SG-MCMC,循环调度是否改善混合性和不确定性估计?
- RQ3在循环步长下,cSG-MCMC 的理论(非渐进)收敛保证是什么?
- RQ4cSG-MCMC 在大规模任务(如 ImageNet)及不确定性量化任务上的表现如何?
主要发现
- cSG-MCMC 通过循环发现并刻画多模态分布中的多个模态,优于传统 SGLD 在模态探索方面的表现。
- 在 CIFAR-10/100 的 ResNet-18 上,循环方法的测试误差低于传统的 SG-MCMC 和 Snapshot 集成,且多样性有所提升。
- 在 ImageNet 的 ResNet-50 上,cSG-MCMC 实现了在所测试方法中最低的预测负对数似然(NLL),表明不确定性建模更强。
- 可视化显示来自 cSG-MCMC 的权重空间样本形成多个簇,表明对多样模态的探索。
- 在 notMNIST 的不确定性评估中,cSG-MCMC 通过探索更多的权重空间模态提供了更好校准的预测不确定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。