Skip to main content
QUICK REVIEW

[论文解读] Reliable Post hoc Explanations: Modeling Uncertainty in Explainability

Dylan Slack, Sophie Hilgard|arXiv (Cornell University)|Aug 11, 2020
Explainable Artificial Intelligence (XAI)参考文献 57被引用 23
一句话总结

本文提出了一种贝叶斯框架 BayesLIME 和 BayesSHAP,通过可信区间量化特征重要性的不确定性,生成局部模型解释。通过建模不确定性,该方法确保了稳定、可靠且计算高效的解释,并在超参数选择和收敛性方面提供了理论保证。

ABSTRACT

As black box explanations are increasingly being employed to establish model credibility in high-stakes settings, it is important to ensure that these explanations are accurate and reliable. However, prior work demonstrates that explanations generated by state-of-the-art techniques are inconsistent, unstable, and provide very little insight into their correctness and reliability. In addition, these methods are also computationally inefficient, and require significant hyper-parameter tuning. In this paper, we address the aforementioned challenges by developing a novel Bayesian framework for generating local explanations along with their associated uncertainty. We instantiate this framework to obtain Bayesian versions of LIME and KernelSHAP which output credible intervals for the feature importances, capturing the associated uncertainty. The resulting explanations not only enable us to make concrete inferences about their quality (e.g., there is a 95% chance that the feature importance lies within the given range), but are also highly consistent and stable. We carry out a detailed theoretical analysis that leverages the aforementioned uncertainty to estimate how many perturbations to sample, and how to sample for faster convergence. This work makes the first attempt at addressing several critical issues with popular explanation methods in one shot, thereby generating consistent, stable, and reliable explanations with guarantees in a computationally efficient manner. Experimental evaluation with multiple real world datasets and user studies demonstrate that the efficacy of the proposed framework.

研究动机与目标

  • 解决现有事后解释方法(如 LIME 和 SHAP)的不稳定性与不一致性问题,这些方法在不同运行或面对微小输入扰动时会产生变化的解释。
  • 通过建模特征重要性的后验分布,提供可靠且具有不确定性感知的解释,从而能够对解释质量做出具体推断。
  • 通过推导后验分布的闭式表达式并引入聚焦采样策略,降低计算成本,加速收敛。
  • 利用不确定性估计为关键超参数(如扰动数量)提供理论指导,以实现所需的置信水平。
  • 使最终用户能够请求具有用户指定可靠性阈值(如 95% 可信区间)的解释。

提出的方法

  • 开发一种贝叶斯框架,将局部解释系数视为具有后验分布的随机变量,从而实现不确定性量化。
  • 为 LIME 和 KernelSHAP 推导出后验分布的闭式表达,消除对 MCMC 或基于采样的推断的依赖,确保计算效率。
  • 将该框架实例化为 BayesLIME 和 BayesSHAP,输出特征重要性的点估计值以及可信区间。
  • 提出聚焦采样——一种新颖的采样策略,优先选择不确定性较高的区域,以加速收敛。
  • 利用可信区间推导出实现所需置信水平所需扰动数量的闭式表达。
  • 将不确定性度量集成到超参数选择中,确保解释满足用户指定的可靠性阈值。

实验结果

研究问题

  • RQ1在局部解释中建模不确定性是否能提高其在多次运行中的稳定性和一致性?
  • RQ2特征重要性的可信区间是否能提供可靠且可解释的解释质量与可靠性度量?
  • RQ3基于不确定性估计的理论分析是否能指导关键超参数(如扰动数量)的选择?
  • RQ4不确定性感知的采样策略是否能提高解释生成的计算效率?
  • RQ5不确定性感知的解释在高风险领域在多大程度上增强了用户信任和决策能力?

主要发现

  • BayesLIME 和 BayesSHAP 生成的解释包含可信区间,使用户能够量化特征重要性估计的可靠性,例如可声明‘真实重要性有 95% 的概率落在给定范围内’。
  • 该框架确保了高度的一致性和稳定性:与标准 LIME 不同,其解释不会因微小的输入扰动或不同运行而发生剧烈变化。
  • 理论分析使得实现所需置信水平所需扰动数量的闭式估计成为可能,减少了对启发式调参的依赖。
  • 聚焦采样(优先选择不确定性高的区域)加速了收敛过程,减少了获得稳定解释所需的黑盒查询次数。
  • 在 COMPAS、German Credit、MNIST 和 ImageNet 等数据集上的用户研究与评估表明,所提方法生成的解释比基线方法更可靠、更可信。
  • 该框架通过闭式后验分布避免了迭代采样或 MCMC,保持了计算效率,同时仍能提供不确定性量化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。