[论文解读] SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates
SDE-Net 将神经网络变换建模为带漂移(预测)和扩散(不确定性)成分的随机微分方程,使得明确分离 aleatoric 与 epistemic 不确定性并进行基于不确定性的鲁棒任务成为可能。
Uncertainty quantification is a fundamental yet unsolved problem for deep learning. The Bayesian framework provides a principled way of uncertainty estimation but is often not scalable to modern deep neural nets (DNNs) that have a large number of parameters. Non-Bayesian methods are simple to implement but often conflate different sources of uncertainties and require huge computing resources. We propose a new method for quantifying uncertainties of DNNs from a dynamical system perspective. The core of our method is to view DNN transformations as state evolution of a stochastic dynamical system and introduce a Brownian motion term for capturing epistemic uncertainty. Based on this perspective, we propose a neural stochastic differential equation model (SDE-Net) which consists of (1) a drift net that controls the system to fit the predictive function; and (2) a diffusion net that captures epistemic uncertainty. We theoretically analyze the existence and uniqueness of the solution to SDE-Net. Our experiments demonstrate that the SDE-Net model can outperform existing uncertainty estimation methods across a series of tasks where uncertainty plays a fundamental role.
研究动机与目标
- 为深度神经网络提供不确定性量化的动机,并解决贝叶斯与非贝叶斯方法的局限。
- 提出一个神经随机微分方程(SDE)模型,通过扩散项来量化 epistemic 不确定性。
- 开发一个漂移网来拟合预测函数,一个扩散网来捕捉区域相关的不确定性。
- 给出对 SDE-Net 的存在性/唯一性理论保证以及实际训练方案。
- 在不确定性为基本因素的任务中展示性能提升:OOD 检测、错分类检测、对抗检测和主动学习。
提出的方法
- 将神经网络变换建模为一个随机动力系统:dx_t = f(x_t,t;θ_f) dt + g(x_0;θ_g) dW_t。
- 使用漂移网 f 来控制预测函数,使用辅助扩散网 g 来建模 epistemic 不确定性。
- 以一个结合在分布内数据上的任务损失和基于扩散的正则化(使用 OOD 输入)的目标进行训练。
- 在跨层共享参数以减少内存占用,并采用 Euler–Maruyama 离散化进行训练。
- 通过对 SDE 的多次实现采样来量化不确定性,以计算 aleatoric 和 epistemic 成分。
- 在 Lipschitz 条件下提供一个理论结果,确保 SDE 解的存在性/唯一性。
实验结果
研究问题
- RQ1基于 SDE 的分解(漂移用于预测,扩散用于不确定性)是否能在深度神经网络中产生可靠的 epistemic 不确定性估计?
- RQ2与现有不确定性方法相比,SDE-Net 在 OOD 检测、错分类检测、对抗样本检测和主动学习中的表现如何?
- RQ3就所提出的 SDE 形式,在解的存在性和唯一性方面有哪些理论保证?
主要发现
- SDE-Net 在分类任务(MNIST、SVHN)和回归任务上实现了强大的 OOD 检测性能,且通常在参数更少的情况下超过基线。
- 在分类 OOD 任务中,SDE-Net 获得高 AUROC 和检测准确率,在多种设定下超过 Threshold、MC-dropout、DeepEnsemble、PN、BBP 与 p-SGLD。
- 对于回归 OOD,SDE-Net 显示出鲁棒性,其他方法难以实现,利用其扩散分量对未见输入发出不确定信号。
- 错分类检测:SDE-Net 在识别错分样本方面达到有竞争力的 AUROC 和 AUPR,媲美 DeepEnsemble,超过若干基线。
- 对抗样本检测:在 FGSM 和 PGD 攻击下,SDE-Net 的 AUROC 高于大多数基线,尤其在高维数据挑战其他方法的 SVHN 上表现更佳。
- 主动学习:SDE-Net 提升标签利用效率,随着获取的样本信息量增加,RMSE 的后悔度下降,优于 BBP 和 p-SGLD,并抵制部分基线的过拟合倾向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。