Skip to main content
QUICK REVIEW

[论文解读] Uncertainty Estimations by Softplus normalization in Bayesian Convolutional Neural Networks with Variational Inference

Kumar Shridhar, Felix Laumann|arXiv (Cornell University)|Jun 15, 2018
Adversarial Robustness in Machine Learning参考文献 36被引用 60
一句话总结

本文提出 Softplus 归一化用于在通过变分推断训练的贝叶斯 CNN 中估计 aleatoric 与 epistemic 不确定性,并在 MNIST、CIFAR-10、CIFAR-100 的多种架构下给出不确定性估计。

ABSTRACT

We introduce a novel uncertainty estimation for classification tasks for Bayesian convolutional neural networks with variational inference. By normalizing the output of a Softplus function in the final layer, we estimate aleatoric and epistemic uncertainty in a coherent manner. The intractable posterior probability distributions over weights are inferred by Bayes by Backprop. Firstly, we demonstrate how this reliable variational inference method can serve as a fundamental construct for various network architectures. On multiple datasets in supervised learning settings (MNIST, CIFAR-10, CIFAR-100), this variational inference method achieves performances equivalent to frequentist inference in identical architectures, while the two desiderata, a measure for uncertainty and regularization are incorporated naturally. Secondly, we examine how our proposed measure for aleatoric and epistemic uncertainties is derived and validate it on the aforementioned datasets.

研究动机与目标

  • 对 CNN 量化不确定性以表达模型置信度并对训练进行正则化的必要性进行动机性阐述。
  • 使用 Bayes by Backprop 构建一个贝叶斯 CNN 框架,采用两次卷积运算学习权重的均值与方差。
  • 引入 Softplus 归一化,以在没有 Softmax 不一致性的情况下估计 aleatoric 与 epistemic 不确定性。
  • 证明变分贝叶斯 CNN 在标准数据集上实现具有正则化效果的有竞争力的精度。
  • 对不同架构和数据集上的不确定性估计进行实证分析。

提出的方法

  • 对 CNN 应用 Bayes by Backprop,通过高斯变分分布近似权重后验。
  • 使用两次顺序卷积运算为每个滤波器学习均值 (μ) 与方差 (αμ^2)。
  • 采用局部重参数化以对激活而非权重进行采样以提高效率。
  • 用 Softplus 归一化替代基于 Softmax 的不确定性估计,以计算预测方差。
  • 通过对 qθ(w|D) 进行蒙特卡罗采样,将预测方差分解为 aleatoric 与 epistemic 成分。
  • 在 MNIST、CIFAR-10、CIFAR-100 上的 LeNet-5、AlexNet、VGG 架构进行评估。

实验结果

研究问题

  • RQ1Bayes by Backprop 基于变分的 CNN 能否在标准基准测试中与常规 CNN 相媲美地取得分类准确率?
  • RQ2在输出层不使用 Softmax 激活的情况下,如何在 CNN 中一致地估计 aleatoric 与 epistemic 不确定性?
  • RQ3Softplus 归一化是否在图像分类基准上产生稳健、良好校准的预测不确定性?
  • RQ4在不同架构和数据集上,模型精度与 epistemic 不确定性之间存在何种关系?
  • RQ5数据集特征(如 MNIST 与 CIFAR)如何影响估计的 aleatoric 不确定性?

主要发现

  • 带变分推断的贝叶斯 CNN 在 MNIST、CIFAR-10、CIFAR-100 上的验证精度与其频率主义对手相当。
  • Softplus 归一化使不确定性估计在不引入 Softmax 不一致性的情况下成为可能,得到 aleatoric 与 epistemic 不确定性的估计。
  • 对于给定数据集,aleatoric 不确定性依然与数据集相关并在各模型间大体保持不变;epistemic 不确定性通常随着验证精度的提升而下降。
  • 在不同架构中,较高的验证精度与较低的 epistemic 不确定性呈相关关系,体现了模型推导出的不确定性降低来源。
  • Softplus 归一化在加入高斯像素噪声时仍能产生稳定的不确定性估计,表明对输入扰动下的 aleatoric 不确定性具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。