[论文解读] What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?
本论文提出一个统一的贝叶斯框架,将输入相关的本征不确定性与认知不确定性结合用于视觉任务,提升逐像素深度回归和语义分割,并通过学习的不确定性实现损失衰减。
There are two major types of uncertainty one can model. Aleatoric uncertainty captures noise inherent in the observations. On the other hand, epistemic uncertainty accounts for uncertainty in the model -- uncertainty which can be explained away given enough data. Traditionally it has been difficult to model epistemic uncertainty in computer vision, but with new Bayesian deep learning tools this is now possible. We study the benefits of modeling epistemic vs. aleatoric uncertainty in Bayesian deep learning models for vision tasks. For this we present a Bayesian deep learning framework combining input-dependent aleatoric uncertainty together with epistemic uncertainty. We study models under the framework with per-pixel semantic segmentation and depth regression tasks. Further, our explicit uncertainty formulation leads to new loss functions for these tasks, which can be interpreted as learned attenuation. This makes the loss more robust to noisy data, also giving new state-of-the-art results on segmentation and depth regression benchmarks.
研究动机与目标
- 区分并量化视觉模型中的本征不确定性与认知不确定性。
- 开发一个将输入相关的本征不确定性与认知不确定性相结合的框架。
- 通过学习的损失衰减展示对嘈杂数据的鲁棒性。
- 将该框架应用于逐像素语义分割和深度回归任务。
- 展示不确定性类型之间的实际权衡以及推理效率。
提出的方法
- 使用基于 dropout 的近似贝叶斯推断来建模认知不确定性(Monte Carlo dropout)。
- 通过学习每像素观测噪声 (sigma) 及其对数方差 s 来建模本征不确定性,使用一个稳定的损失函数,该损失使用 exp(-s)。
- 在一个共享头部同时预测 y 和 sigma^2 的单一贝叶斯 CNN 中将本征与认知不确定性结合起来。
- 通过蒙特卡洛估计对数空间高斯噪声边际化,将异方差不确定性扩展到分类(对扰动 logits 的 softmax)。
- 推导回归的损失 L_BNN = (1/D) sum_i 0.5 exp(-s_i) ||y_i - y_hat_i||^2 + 0.5 s_i,以及用于分类的相应随机交叉熵变体。
- 通过精确-召回和校准曲线评估不确定性质量;分析训练数据规模和分布外测试下的行为。
实验结果
研究问题
- RQ1是否仅建模本征不确定性、仅建模认知不确定性,还是两者结合能够提升像分割和深度回归等视觉任务?
- RQ2从本征不确定性中学习的损失衰减是否提高对嘈杂标签和数据的鲁棒性?
- RQ3本征与认知不确定性在数据与训练分布距离、数据集规模方面的行为有何差异?
- RQ4建模两种不确定性是否与实时或近实时推理兼容?
- RQ5在标准分割和深度回归基准上,将不确定性结合后的实际改进有哪些?
主要发现
- 同时建模本征与认知不确定性在 CamVid 与 NYUv2 的分割,以及 Make3D 与 NYUv2 的深度回归上取得了最新的结果。
- 在 CamVid 与 NYUv2 上,对于分割任务本征不确定性提供的增益大于认知不确定性,而两者结合进一步带来改进。
- 通过将不确定性结合,深度回归获得提升,在 Make3D 与 NYUv2 数据集上观察到相对改进。
- 从本征不确定性学习到的损失衰减通过降低对困难或标注错误像素的权重来增强对嘈杂数据的鲁棒性,而不损害整体性能。
- 认知不确定性会随着更大的训练数据而下降,在分布外或数据稀缺场景中更为突出;本征不确定性在数据规模变化上相对稳定。
- 该模型在本征分量上实现了近实时推理,而通过蒙特卡洛 dropout 进行完整的认知不确定性采样则成本较高,突显了实际部署的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。