[论文解读] Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions
本文在 NBC 与 GeFs 上比较了鲁棒性量化(RQ)和不确定性量化(UQ)在逐预测可靠性方面的表现,发现 RQ 常具有竞争力甚至优于 UQ,尤其在分布偏移下,并且显示两者结合可改善可靠性评估。
We consider two approaches for assessing the reliability of the individual predictions of a classifier: Robustness Quantification (RQ) and Uncertainty Quantification (UQ). We explain the conceptual differences between the two approaches, compare both approaches on a number of benchmark datasets and show that RQ is capable of outperforming UQ, both in a standard setting and in the presence of distribution shift. Beside showing that RQ can be competitive with UQ, we also demonstrate the complementarity of RQ and UQ by showing that a combination of both approaches can lead to even better reliability assessments.
研究动机与目标
- 使用两种方法:不确定性量化(UQ)和鲁棒性量化(RQ),评估分类器输出的逐预测可靠性。
- 在真实数据集上对 Naive Bayes 和 Generative Forest 进行基准测试,以评估可靠性度量。
- 通过提出并评估混合可靠性排序,探讨 UQ 与 RQ 的互补性。
- 探究分布偏移和有限数据对 UQ 与 RQ 相对性能的影响。
提出的方法
- 将不确定性度量形式化为概率生成分类器,包括 u_max、u_conf、u_H,以及基于集成的 u_t、u_a、u_e。
- 为 NBC 和 GeFs 定义鲁棒性度量 r_glob(全局 ε-污染)与 r_loc(局部参数扰动)。
- 通过准确率拒绝曲线(ARC)评估可靠性,并报告 AU-ARC 作为汇总指标。
- 使用具有离散特征的 UCI 数据集,训练/测试分割(60/40,最多 3000 个样本),以及与模型相关的训练设置。
- 在标准设置与具有更高认识论不确定性的情境(通过减少训练数据与分布偏移)下进行比较。
- 提出混合排序 h_i = γ n_u,i + (1−γ) n_r,i,并在训练集上优化 γ,以结合 UQ 与 RQ。
实验结果
研究问题
- RQ1不确定性基础的可靠性度量与基于鲁棒性的度量在 NBC 与 GeFs 的单个预测上有何差异?
- RQ2在分布偏移或有限训练数据下,局部鲁棒性度量是否比全局鲁棒性和某些 UQ 度量更有效?
- RQ3将不确定性与鲁棒性结合的混合方法是否能产生更优的实例排序?
- RQ4数据集特征在确定 UQ 与 RQ 相对价值以及两者结合中的作用是什么?
主要发现
- 局部鲁棒性(特别是 r_loc)在标准设置中通常优于不确定性度量,在认知不确定性下变得更具优势。
- 全球鲁棒性(r_glob)通常不如局部鲁棒性以及若干 UQ 度量在研究情境中的表现。
- 通过加权混合排序结合不确定性与鲁棒性通常在不同数据集上获得更好的可靠性评估。
- 最佳融合权重 γ* 依数据集与模型类型而异,揭示了在不同任务中不确定性与鲁棒性的相对重要性。
- 混合方法不仅提升排序准确性(AU-ARC),还提供对数据集特定可靠性因素的可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。