[论文解读] Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
本论文表明深度神经网络中的 dropout 可以近似深度高斯过程中的贝叶斯推断,从而实现对模型不确定性的实用估计,并在回归、分类和强化学习任务中提升预测似然和 RMSE。
Deep learning tools have gained tremendous attention in applied machine learning. However such tools for regression and classification do not capture model uncertainty. In comparison, Bayesian models offer a mathematically grounded framework to reason about model uncertainty, but usually come with a prohibitive computational cost. In this paper we develop a new theoretical framework casting dropout training in deep neural networks (NNs) as approximate Bayesian inference in deep Gaussian processes. A direct result of this theory gives us tools to model uncertainty with dropout NNs -- extracting information from existing models that has been thrown away so far. This mitigates the problem of representing uncertainty in deep learning without sacrificing either computational complexity or test accuracy. We perform an extensive study of the properties of dropout's uncertainty. Various network architectures and non-linearities are assessed on tasks of regression and classification, using MNIST as an example. We show a considerable improvement in predictive log-likelihood and RMSE compared to existing state-of-the-art methods, and finish by using dropout's uncertainty in deep reinforcement learning.
研究动机与目标
- 动机:在回归、分类和强化学习中,说明在深度学习中表示模型不确定性的必要性。
- 表明 dropout 可以被解释为对深度高斯过程的贝叶斯近似。
- 开发实用工具,从现有的 dropout 网络中提取并利用不确定性。
- 在回归和 MNIST 分类任务中,评估跨架构和非线性(如 ReLU、TanH、卷积网络等)的不确定性估计。
提出的方法
- 将 dropout 训练视为深度高斯过程中的近似贝叶斯推断。
- 在稀疏谱分量上使用带有 Bernoulli dropout 掩码的变分分布来近似后验。
- 给出一个 KL 散度目标,将 dropout 与基于 GP 的后验相关联(文中方程 3 与 4)。
- 通过对 dropout 掩码取样来估计预测均值和方差,从而推导出 Monte Carlo dropout(MC dropout)(方程 6 与 7)。
- 给出通过 MC 前向传播计算预测对数似然和不确定性的实用步骤。
实验结果
研究问题
- RQ1 dropout 能否被解释为表示深度模型不确定性的贝叶斯近似?
- RQ2如何在不改变架构或训练过程的情况下,从标准 dropout 网络中量化预测不确定性?
- RQ3与其他方法相比,MC dropout 的不确定性估计是否在回归、分类、强化学习等任务中提升预测对数似然和 RMSE?
- RQ4在不同架构和非线性(ReLU、TanH、卷积网络)及数据情景下,dropout 派生的不确定性表现如何?
主要发现
- Dropout NN 可以被视为深度高斯过程中的近似推断,从而在不增加额外计算负担的情况下实现不确定性量化。
- MC dropout 通过对多次随机前向传播取平均,提供预测均值和方差的实用估计。
- 相对于若干基线,dropout 的不确定性在回归基准上(如基于 MNIST 的分类与标准数据集)提升预测对数似然和 RMSE。
- dropout 的不确定性信息可用于强化学习中的探索引导(如 Thompson 采样)。
- 在不同架构和非线性下,基于 dropout 的不确定性对于分类任务和外推情景尤为有用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。