[论文解读] Evaluating Bayesian Deep Learning Methods for Semantic Segmentation
本论文提出三种用于贝叶斯深度学习在语义分割中的不确定性评估指标,在 Cityscapes 上实现了带 MC dropout 和 Concrete dropout 的 Bayesian DeepLab 变体,并将其不确定性质量与确定性基线进行对比基准。
Deep learning has been revolutionary for computer vision and semantic segmentation in particular, with Bayesian Deep Learning (BDL) used to obtain uncertainty maps from deep models when predicting semantic classes. This information is critical when using semantic segmentation for autonomous driving for example. Standard semantic segmentation systems have well-established evaluation metrics. However, with BDL's rising popularity in computer vision we require new metrics to evaluate whether a BDL method produces better uncertainty estimates than another method. In this work we propose three such metrics to evaluate BDL models designed specifically for the task of semantic segmentation. We modify DeepLab-v3+, one of the state-of-the-art deep neural networks, and create its Bayesian counterpart using MC dropout and Concrete dropout as inference techniques. We then compare and test these two inference techniques on the well-known Cityscapes dataset using our suggested metrics. Our results provide new benchmarks for researchers to compare and evaluate their improved uncertainty quantification in pursuit of safer semantic segmentation.
研究动机与目标
- 在将贝叶斯深度学习应用于语义分割时,针对不确定性的专门度量需求的动机。
- 引入三种用于评估分割输出像素级不确定性的指标。
- 开发基于 MC dropout 和 Concrete dropout 的概率分割模型(Bayesian DeepLab)。
- 在 Cityscapes 数据集上对比基线确定性模型,评估贝叶斯方法的不确定性质量。
提出的方法
- 基线架构为 DeepLab-v3+,使用 Xception 主干和 ASPP。
- 引入基于 dropout 的近似推断以生成 Bayesians DeepLab 变体:MC dropout 和 Concrete dropout。
- 在中间流中插入 dropout 层(每 4 个 Xception 模块后), dropout 率为 0.5。
- 定义并计算不确定性指标:预测熵和互信息。
- 提出跨补丁的两种基于不确定性的性能度量:p(准确|确定) 和 p(不确定|不准确),以及综合指标 PAvPU。
- 在 Cityscapes 验证集上比较贝叶斯变体与确定性 DeepLab 的结果。
实验结果
研究问题
- RQ1新的、针对任务的度量能否有效评估贝叶斯语义分割中的不确定性质量?
- RQ2MC dropout 和 Concrete dropout 在生成可靠的像素级不确定性图方面有何差异?
- RQ3在 Cityscapes 上,贝叶斯 DeepLab 模型在分割精度与不确定性诊断方面是否优于确定性基线?
主要发现
| 方法 | 像素准确率 | 平均准确率 | 平均 IOU |
|---|---|---|---|
| DeepLab (VGG-16) [10] | NA | NA | 65.94 |
| DeepLab (ResNet-101) [10] | NA | NA | 71.40 |
| DeepLab-v3 (OS=16) [11] | NA | NA | 77.23 |
| DeepLab-v3+ (X-65) [13] | NA | NA | 79.14 |
| Bayesian DeepLab — MC Dropout | 95.31 | 85.11 | 78.05 |
| Bayesian DeepLab — Concrete Dropout | 96.47 | 87.26 | 79.12 |
- Concrete dropout 在像素准确率、平均准确率和平均 IOU 上均优于 MC dropout。
- 两种贝叶斯 DeepLab 变体在分割指标上均超过确定性基线,Concrete dropout 取得最佳结果(IOU 79.12,相较于 DeepLab-v3+ 的 79.14)。
- 确定性模型无法通过互信息捕捉到知识不确定性,与贝叶斯变体不同。
- 预测熵同时捕捉到本质不确定性和知识不确定性,而互信息则主要隔离知识不确定性。
- 贝叶斯方法在像素级产生可解释的不确定性图,且不确定性阈值会影响所提出的指标。
- 温度标定(ECE/MCE)无法区分贝叶斯与确定性模型,与所提出的指标不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。