[论文解读] Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness
本文提出 SNGP,一种单模型方法,通过将 Laplace-近似的高斯过程输出层与光谱归一化、距离保持的隐藏映射相结合,在标定和 OOD 检测方面与深度集成方法相当,同时保持快速推断。
Bayesian neural networks (BNN) and deep ensembles are principled approaches to estimate the predictive uncertainty of a deep learning model. However their practicality in real-time, industrial-scale applications are limited due to their heavy memory and inference cost. This motivates us to study principled approaches to high-quality uncertainty estimation that require only a single deep neural network (DNN). By formalizing the uncertainty quantification as a minimax learning problem, we first identify input distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data in the input space, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs, by adding a weight normalization step during training and replacing the output layer with a Gaussian process. On a suite of vision and language understanding tasks and on modern architectures (Wide-ResNet and BERT), SNGP is competitive with deep ensembles in prediction, calibration and out-of-domain detection, and outperforms the other single-model approaches.
研究动机与目标
- 将距离意识作为高质量不确定性估计在深度神经网络中的关键标准进行动机说明。
- 将不确定性估计形式化为一个极小极大问题,以证明对于远离训练数据的输入给出统一的超出域预测的合理性。
- 提出 SNGP 以使输出层具备距离感知、隐藏映射具备距离保持性,同时保持可扩展性。
- 证明 SNGP 在视觉和语言任务上与深度集成方法在实时推断方面具有竞争力。
提出的方法
- 提出 Spectral-normalized Neural Gaussian Process (SNGP) 作为单模型不确定性方法。
- 用 Laplace 近似的随机傅里叶特征展开替换密集输出层,以实现可扩展的后验估计的高斯过程。
- 通过对残差块进行光谱归一化以实现双线性-李普斯茨条件,强加隐藏映射的距离保持约束。
- 使用 SGD 训练,并在最后一个时期更新 GP 后验精度,以实现闭式预测不确定性的计算。
- 通过将 GP 与学习得到的隐藏表示相结合来提供预测,在推理时避免蒙特卡罗采样。
实验结果
研究问题
- RQ1如何在不依赖集成的情况下用单一确定性深度神经网络实现高质量的预测不确定性?
- RQ2输入距离感知在校准与 OOD 检测中起到什么作用?
- RQ3GP 输出层结合距离保持的隐藏映射是否能够在不确定性指标和 OOD 检测方面达到与集成相媲美的性能?
- RQ4在标准训练流程中是否可以实现可扩展的基于 GP 的不确定性估计?
- RQ5相较于单模型基线和深度集成,SNGP 在视觉与语言任务上的表现如何?
主要发现
- SNGP 在校准和域外检测方面的不确定性达到与深度集成相当的水平,同时保持单模型推断速度。
- 通过 GP 输出层和双李普斯茨隐藏映射实现的距离感知,使不确定性曲面在深度网络中也接近高斯过程的表现。
- 光谱归一化确保隐藏表征无失真,提升距离保持性与跨任务的不确定性质量。
- 对 GP 后验使用带有随机傅里叶特征的 Laplace 近似实现了可扩展的训练与推断,且无需蒙特卡罗采样。
- 在 CIFAR-10/100 结合 Wide ResNet、以及 CLINC OOS 配合 BERT 的评估中,SNGP 在标定和 OOD 指标上与其他单模型方法相比表现相似或优于,且通常优于非距离感知方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。