[论文解读] Deterministic Neural Networks with Appropriate Inductive Biases Capture Epistemic and Aleatoric Uncertainty
该论文表明,通过引入适当的归纳偏置——特别是高斯判别分析(GDA)的特征空间密度,并结合Softmax熵——标准Softmax神经网络能够可靠地捕捉认知不确定性与随机不确定性。该方法在性能上达到最先进水平,在CIFAR-10与SVHN的分布外(OoD)检测任务中,AUROC达到约0.98,优于深度集成方法和复杂的单前向传播方法。
We show that a single softmax neural net with minimal changes can beat the uncertainty predictions of Deep Ensembles and other more complex single-forward-pass uncertainty approaches. Softmax neural nets cannot capture epistemic uncertainty reliably because for OoD points they extrapolate arbitrarily and suffer from feature collapse. This results in arbitrary softmax entropies for OoD points which can have high entropy, low, or anything in between. We study why, and show that with the right inductive biases, softmax neural nets trained with maximum likelihood reliably capture epistemic uncertainty through the feature-space density. This density is obtained using Gaussian Discriminant Analysis, but it cannot disentangle uncertainties. We show that it is necessary to combine this density with the softmax entropy to disentangle aleatoric and epistemic uncertainty -- crucial e.g. for active learning. We examine the quality of epistemic uncertainty on active learning and OoD detection, where we obtain SOTA ~0.98 AUROC on CIFAR-10 vs SVHN.
研究动机与目标
- 为解决标准Softmax网络在捕捉认知不确定性方面不可靠的问题,尤其是在分布外(OoD)输入下的表现。
- 证明通过极少的网络架构修改,即可实现与深度集成等复杂方法相当或更优的不确定性估计。
- 通过结合特征空间密度与Softmax熵,实现对认知不确定性与随机不确定性的有效解耦。
- 利用更简单、确定性的网络,在主动学习与OoD检测任务中实现性能提升。
提出的方法
- 使用最大似然法训练标准Softmax神经网络,以学习类别概率。
- 利用高斯判别分析(GDA)估计特征空间密度,以捕捉认知不确定性。
- 将基于GDA的密度与Softmax熵结合,以实现对认知不确定性与随机不确定性的解耦。
- 将组合后的不确定性度量用于主动学习与OoD检测。
- 应用归纳偏置,防止对分布外样本的任意外推与特征坍塌。
- 利用Softmax熵本身不足以在分布偏移情况下提供可靠的认知不确定性估计这一事实。
实验结果
研究问题
- RQ1一个经过极少修改的简单确定性Softmax网络,能否在不确定性估计方面超越深度集成等复杂方法?
- RQ2为何标准Softmax网络在分布外输入下无法可靠捕捉认知不确定性?
- RQ3如何在单前向传播网络中有效解耦认知不确定性与随机不确定性?
- RQ4来自GDA的特征空间密度在多大程度上能提升不确定性校准与OoD检测性能?
- RQ5将GDA密度与Softmax熵结合,是否能提升主动学习与OoD检测的性能?
主要发现
- 所提出方法在CIFAR-10与SVHN的OoD检测任务中,AUROC达到约0.98,创下新的最先进水平。
- 该方法优于深度集成和其他复杂的单前向传播不确定性方法。
- 来自GDA的特征空间密度通过防止Softmax的任意外推,实现了可靠的认知不确定性估计。
- 将GDA密度与Softmax熵结合,成功实现了对认知不确定性与随机不确定性的解耦。
- 该方法在保持简单性与确定性的同时,实现了更优的不确定性量化。
- 该方法对分布偏移具有鲁棒性,且避免了标准Softmax网络在分布外输入下常见的特征坍塌问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。