Skip to main content
QUICK REVIEW

[论文解读] The many Shapley values for model explanation

Mukund Sundararajan, Amir Najmi|arXiv (Cornell University)|Aug 22, 2019
Explainable Artificial Intelligence (XAI)参考文献 19被引用 36
一句话总结

本论文分析基于 Shapley 的多种归因方法用于模型解释,揭示 CES 的问题行为,并引入具有唯一性保证的 Baseline Shapley (BShap),并将其与 Integrated Gradients (IG) 进行比较。

ABSTRACT

The Shapley value has become a popular method to attribute the prediction of a machine-learning model on an input to its base features. The use of the Shapley value is justified by citing [16] showing that it is the \emph{unique} method that satisfies certain good properties (\emph{axioms}). There are, however, a multiplicity of ways in which the Shapley value is operationalized in the attribution problem. These differ in how they reference the model, the training data, and the explanation context. These give very different results, rendering the uniqueness result meaningless. Furthermore, we find that previously proposed approaches can produce counterintuitive attributions in theory and in practice---for instance, they can assign non-zero attributions to features that are not even referenced by the model. In this paper, we use the axiomatic approach to study the differences between some of the many operationalizations of the Shapley value for attribution, and propose a technique called Baseline Shapley (BShap) that is backed by a proper uniqueness result. We also contrast BShap with Integrated Gradients, another extension of Shapley value to the continuous setting.

研究动机与目标

  • 动机:使用 Shapley 值将模型对预测的归因分配给输入特征,并解决不同实现之间的非唯一性。
  • 分析不同的 Shapley 扩展(CES、BShap、RBShap、IG)如何依赖于模型、数据和基线选择。
  • 提供 Baseline Shapley (BShap) 的公理基础和唯一性结果,并将其与成本分摊理论联系起来。
  • 将 Baseline Shapley 与 Integrated Gradients 及其他基于 Shapley 的方法进行比较。
  • 通过糖尿病预测案例研究展示这些方法的经验含义。

提出的方法

  • 用一个实值模型 f 和特征集合 N 形式化归因问题。
  • 定义三种基于 Shapley 的扩展:Conditional Expectations Shapley (CES)、Baseline Shapley (BShap) 和 Random Baseline Shapley (RBShap);并与 Integrated Gradients (IG) 进行对比。
  • 提出公理(Dummy、Efficiency、Linearity、Symmetry、Affine Scale Invariance、Demand Monotonicity、Proportionality)以比较方法。
  • 展示 CES 如何依赖参考分布 D 并可能产生反直觉的归因;引入向下闭包性质并给出计算 CES(HAT{D}) 的算法。
  • 提供将模型解释与成本分摊联系起来的理论化简,在相应公理集合下建立 BShap 和 IG 的唯一性结果。
  • 通过分布选择将 BShap 与 CES 联系起来,并讨论 RBShap 作为平均化变体。

实验结果

研究问题

  • RQ1不同的基于 Shapley 的归因方法(CES、BShap、RBShap、IG)在假设、计算和输出上有何差异?
  • RQ2在哪些公理下 Baseline Shapley (BShap) 和 Integrated Gradients (IG) 是模型解释的唯一解?
  • RQ3CES 的陷阱有哪些,特别是它对特征分布和稀疏性的依赖,以及这些如何影响归因质量?
  • RQ4如何将模型解释简化为成本分摊?这对 BShap 与 IG 的关系有何含义?
  • RQ5有哪些实证证据展示这些归因方法在真实数据上的实际意义(如糖尿病进展任务)?

主要发现

  • CES 的归因在很大程度上取决于所选的特征分布 D,并且对稀疏性高度敏感。
  • CES 可能对虚拟特征分配非零归因,并且在简单示例中可能违反线性和其他直觉。
  • Baseline Shapley (BShap) 满足关键公理(Linearity、Dummy、ASI、DM、Symmetry),在这些公理下对归因问题具有唯一性。
  • Integrated Gradients (IG) 是唯一同时满足 Linearity、Dummy、ASI、Proportionality 和 Symmetry 的方法,为 BShap 提供一个独特的有原理依据的替代。
  • 在某些分布下,BShap 与 CES 对齐,但与 CES 不同,它不依赖分布而使用显式基线来反映解释上下文。
  • 在糖尿病预测案例研究中,作者说明归因方法如何产生细致且潜在的反直觉结果;数据集显示模型用 BMI、BP 和一个血清测量值作为强贡献因素,解释了 35% 的方差(R^2)。
  • RBShap 及 CES 与 RBShap 的关系,表明在独立特征分布下对基线取平均可以恢复 CES。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。