[论文解读] Explaining Data-Driven Decisions made by AI Systems: The Counterfactual Approach
本文认为对照事实解释(counterfactual explanations)——识别会改变系统决策的最小、因果相关输入特征——较之 SHAP 或 LIME 等特征重要性方法更能解释决策,并且提供了生成此类解释的一般框架和启发式方法。
We examine counterfactual explanations for explaining the decisions made by model-based AI systems. The counterfactual approach we consider defines an explanation as a set of the system's data inputs that causally drives the decision (i.e., changing the inputs in the set changes the decision) and is irreducible (i.e., changing any subset of the inputs does not change the decision). We (1) demonstrate how this framework may be used to provide explanations for decisions made by general, data-driven AI systems that may incorporate features with arbitrary data types and multiple predictive models, and (2) propose a heuristic procedure to find the most useful explanations depending on the context. We then contrast counterfactual explanations with methods that explain model predictions by weighting features according to their importance (e.g., SHAP, LIME) and present two fundamental reasons why we should carefully consider whether importance-weight explanations are well-suited to explain system decisions. Specifically, we show that (i) features that have a large importance weight for a model prediction may not affect the corresponding decision, and (ii) importance weights are insufficient to communicate whether and how features influence decisions. We demonstrate this with several concise examples and three detailed case studies that compare the counterfactual approach with SHAP to illustrate various conditions under which counterfactual explanations explain data-driven decisions better than importance weights.
研究动机与目标
- 澄清解释模型预测与解释系统决策之间的区别。
- 展示对系统决策的重要性权重解释的局限性。
- 提出一种适用于具有多样特征类型的一般数据驱动 AI 系统的广义对照事实框架。
- 开发一种启发式程序,用于寻找可用于情境定制的有用对照事实解释。
提出的方法
- 将对照事实解释定义为因果且不可约的输入特征集合,其改变会改变系统的决策。
- 将先前的对照事实框架推广以处理任意特征类型和多模型情形。
- 引入一种实用的启发式算法(及其推广)来使用评分函数和偏好(成本)函数搜索对照事实解释。
- 讨论如何移除特征证据(插补)以创建对照事实,并将其与 SHAP/LIME 分析中的均值插补进行比较。
- 提供一个过程(Algorithm 1, Evidence-based Explainer)——迭代性地构建具有不可约性检查的最小因果解释。
- 用信用评分和欺诈检测风格的示例和案例研究来解释并演示该方法。
实验结果
研究问题
- RQ1对照事实解释在系统决策中的作用与模型预测解释有何不同?
- RQ2面向系统决策的特征重要性解释(如 SHAP、LIME)有哪些局限性?
- RQ3是否存在一个可推广的对照事实框架,可为跨越不同数据类型和模型的决策提供情境相关、不可约的解释?
- RQ4如何高效地搜索有用的对照事实解释并按与情境相关性排序?
主要发现
- 对照事实解释聚焦于哪些输入导致了决策,提供了一个以决策为中心的解释框架。
- 重要性权重解释可能会误导人对某个特征对决策的影响,预测的高重要性并不等同于对决策的实际影响。
- 与特定模型或特征类型绑定的解释不同,广义对照事实框架可跨越任意数据类型和多模型工作。
- 基于成本/偏好函数的启发式搜索可以产生紧凑、可操作的对照事实解释,便于落地。
- 对照事实解释可以按每单位成本的分数变化来进行优先排序,平衡影响力与改变特征的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。