QUICK REVIEW

[论文解读] Bayesian Dark Knowledge

Anoop Korattikara, Vivek Rathod|arXiv (Cornell University)|Jun 14, 2015

Gaussian Processes and Bayesian Inference参考文献 21被引用 135

一句话总结

本文提出贝叶斯暗知识（Bayesian Dark Knowledge），一种将随机梯度朗之万动力学（SGLD）生成的蒙特卡洛后验预测分布蒸馏到单一高效深度神经网络中的方法。通过训练一个紧凑的学生网络以模仿SGLD教师网络的不确定性感知预测，该方法在预测性能上优于变分贝叶斯（variational Bayes）和期望传播（expectation propagation）方法，同时推理速度与标准深度学习模型相当。

ABSTRACT

We consider the problem of Bayesian parameter estimation for deep neural networks, which is important in problem settings where we may have little data, and/ or where we need accurate posterior predictive densities, e.g., for applications involving bandits or active learning. One simple approach to this is to use online Monte Carlo methods, such as SGLD (stochastic gradient Langevin dynamics). Unfortunately, such a method needs to store many copies of the parameters (which wastes memory), and needs to make predictions using many versions of the model (which wastes time). We describe a method for "distilling" a Monte Carlo approximation to the posterior predictive density into a more compact form, namely a single deep neural network. We compare to two very recent approaches to Bayesian neural networks, namely an approach based on expectation propagation [Hernandez-Lobato and Adams, 2015] and an approach based on variational Bayes [Blundell et al., 2015]. Our method performs better than both of these, is much simpler to implement, and uses less computation at test time.

研究动机与目标

解决在数据有限或不确定性估计至关重要的情况下，深度神经网络中准确获取后验预测密度的挑战。
克服传统贝叶斯深度学习方法（如变分推断和期望传播）在计算和内存上的低效问题。
通过将SGLD中的不确定性蒸馏到单一快速推理模型中，实现在深度网络中高效可扩展的贝叶斯推理。
提升主动学习、上下文Bandits和强化学习等应用中的预测不确定性估计性能，其中可靠的不确定性至关重要。

提出的方法

使用随机梯度朗之万动力学（SGLD）生成后验预测分布的蒙特卡洛近似，作为‘教师’模型。
训练一个单一深度神经网络（即‘学生’）通过蒸馏方式模仿SGLD教师的预测分布。
在训练过程中最小化学生模型的预测输出与SGLD教师模型集成输出之间的KL散度。
使用从教师预测中生成的合成训练数据（并添加噪声）进行学生网络的标准反向传播训练。
在学生权重上引入先验分布以正则化蒸馏过程，提升泛化能力。
采用自适应学习率的在线学习策略，并结合数据增强（对预测结果添加高斯噪声）以提升学生训练的稳定性和性能。

实验结果

研究问题

RQ1一个单一紧凑的深度神经网络能否有效近似SGLD生成的蒙特卡洛后验预测分布的不确定性？
RQ2蒸馏模型的性能与最先进的贝叶斯深度学习方法（如变分推断和期望传播）相比如何？
RQ3蒸馏过程在降低推理时间和内存消耗的同时，能在多大程度上保持原始SGLD后验的不确定性校准特性？
RQ4与非贝叶斯及贝叶斯基线模型相比，蒸馏模型在标准基准测试上的预测对数似然是否保持或提升？
RQ5蒸馏模型能否在需要不确定性估计的下游任务（如主动学习或上下文Bandits）中有效应用？

主要发现

在波士顿房价数据集上，蒸馏后的SGLD模型测试对数似然达到 -2.350 ± 0.0762，显著优于SGD（-2.7639），并接近SGLD教师模型（-2.306）。
在MNIST数据集上，蒸馏模型的对数似然为 -2.350 ± 0.0762，优于PBP（-2.574）和VI（-2.903），并接近完整SGLD集成模型的性能。
蒸馏模型在提供与SGLD相当的不确定性估计的同时，实现了标准深度网络级别的推理速度，避免了蒙特卡洛方法带来的S×性能下降。
在一维回归小样本问题上的可视化分析表明，蒸馏模型能紧密逼近通过HMC获得的真实后验预测分布。
与变分贝叶斯和期望传播相比，该方法实现更简单，无需复杂的后验分解或迭代更新。
该方法在保持强不确定性校准和泛化能力的同时，尽管仅使用单一模型，其性能与完整SGLD后验相比下降极小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。