QUICK REVIEW

[论文解读] Preconditioned Stochastic Gradient Langevin Dynamics for Deep Neural Networks

Chunyuan Li, Changyou Chen|arXiv (Cornell University)|Dec 23, 2015

Markov Chains and Monte Carlo Methods参考文献 39被引用 175

一句话总结

本文提出预条件随机梯度朗之万动力学（pSGLD），将优化中的自适应预条件技术与随机梯度MCMC相结合，以提升深度神经网络的采样效率和泛化能力。通过利用曲率感知的预条件机制，pSGLD在前馈网络和卷积网络上均实现了更快的收敛速度和MNIST数据集上的最先进测试准确率，优于标准SGLD和基于SGD的方法。

ABSTRACT

Effective training of deep neural networks suffers from two main issues. The first is that the parameter spaces of these models exhibit pathological curvature. Recent methods address this problem by using adaptive preconditioning for Stochastic Gradient Descent (SGD). These methods improve convergence by adapting to the local geometry of parameter space. A second issue is overfitting, which is typically addressed by early stopping. However, recent work has demonstrated that Bayesian model averaging mitigates this problem. The posterior can be sampled by using Stochastic Gradient Langevin Dynamics (SGLD). However, the rapidly changing curvature renders default SGLD methods inefficient. Here, we propose combining adaptive preconditioners with SGLD. In support of this idea, we give theoretical properties on asymptotic convergence and predictive risk. We also provide empirical results for Logistic Regression, Feedforward Neural Nets, and Convolutional Neural Nets, demonstrating that our preconditioned SGLD method gives state-of-the-art performance on these models.

研究动机与目标

解决深度神经网络训练中病态曲率和过拟合的双重挑战。
提升随机梯度朗之万动力学（SGLD）在非凸、高维参数空间中的效率和采样精度。
通过可扩展的、预条件化的MCMC采样，实现在深度网络中的有效贝叶斯不确定性估计。
通过基于样本的不确定性估计，在前馈和卷积神经网络中实现最先进性能。

提出的方法

该方法通过引入受RMSprop启发的自适应预条件矩阵，扩展了SGLD，以根据局部曲率信息动态调整步长。
预条件作用于随机梯度，根据梯度历史方差对每个参数更新进行缩放。
算法采用缓慢递减的步长调度策略，以确保渐近收敛至真实后验分布。
在每次迭代中注入各向同性噪声，以实现参数空间的探索和后验采样。
预条件矩阵在线更新，计算开销极低，保持了良好的可扩展性。
该方法应用于全连接网络和卷积神经网络，超参数通过网格搜索进行调优。

实验结果

研究问题

RQ1自适应预条件能否提升具有病态曲率的深度神经网络中SGLD的收敛速度和采样效率？
RQ2与标准SGLD和SGD相比，预条件化SGLD在测试准确率和泛化能力方面表现如何？
RQ3引入曲率感知预条件是否能带来更优的后验近似和更优的预测风险？
RQ4pSGLD能否在不同网络架构和模型深度增加的情况下保持性能优势？

主要发现

在MNIST数据集上，pSGLD在标准CNN上实现了0.45%的测试误差，显著优于SGD（0.82%）和SGLD（0.71%）。
对于1200-1200前馈网络，pSGLD达到了最先进测试准确率，且随着先验方差从1增加到100，性能持续提升。
与SGLD和SGD相比，pSGLD表现出更快的收敛速度和更稳定的训练曲线，且估计器方差更低。
该方法在不同网络规模下均表现出一致的性能提升，而dropout和BPB在深度增加时未能有效扩展。
实证结果证实，pSGLD能有效捕捉模型不确定性，且在更高先验方差下，权重分布变得更宽。
pSGLD的蒸馏版本保持了强劲性能，实现了高效推理，无需完整集成平均。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。