[论文解读] Theoretical Behavior of XAI Methods in the Presence of Suppressor Variables
论文推导出常见XAI方法在一个带抑制变量的简单二维线性模型上的行为的解析表达,结果显示在特征相关时,许多方法会对抑制变量赋予非零重要性,挑战解释的正确性。
In recent years, the community of 'explainable artificial intelligence' (XAI) has created a vast body of methods to bridge a perceived gap between model 'complexity' and 'interpretability'. However, a concrete problem to be solved by XAI methods has not yet been formally stated. As a result, XAI methods are lacking theoretical and empirical evidence for the 'correctness' of their explanations, limiting their potential use for quality-control and transparency purposes. At the same time, Haufe et al. (2014) showed, using simple toy examples, that even standard interpretations of linear models can be highly misleading. Specifically, high importance may be attributed to so-called suppressor variables lacking any statistical relation to the prediction target. This behavior has been confirmed empirically for a large array of XAI methods in Wilming et al. (2022). Here, we go one step further by deriving analytical expressions for the behavior of a variety of popular XAI methods on a simple two-dimensional binary classification problem involving Gaussian class-conditional distributions. We show that the majority of the studied approaches will attribute non-zero importance to a non-class-related suppressor feature in the presence of correlated noise. This poses important limitations on the interpretations and conclusions that the outputs of these XAI methods can afford.
研究动机与目标
- 提出基于数据驱动的特征重要性定义,并强调在存在抑制变量时XAI解释的局限性。
- 构建一个引入抑制特征的可追溯性二维线性数据生成过程,通过相关噪声实现。
- 推导多种流行XAI方法的解析表达式,以评估它们是否对抑制特征赋予非零重要性。
- 在受控数据生成下比较不同的解释范式(梯度、模式/ Haufe变换、可信度、像素翻转、置换特征重要性、部分依赖、Shapley值、对照结果、FIRM、整合梯度、LIME、Saliency-LRP/DTD)。
提出的方法
- 定义一个包含信号特征和抑制特征的二维线性生成模型:x = a z + η, 其中 y = z 且 η ~ N(0, Σ)。
- 计算分类的贝叶斯最优线性判别式及其权重。
- 在该模型下推导多种XAI方法的解析表达式(梯度、模式/Haufe变换、保真度、像素翻转、置换特征重要性、偏依赖、Shapley值、对照结果、FIRM、集成梯度、LIME,以及Saliency-LRP/DTD)。
- 使用基于数据驱动的重要性定义:当一个特征与Y在统计上相关时它是重要的,并展示抑制变量在解释中也可能无信息但具影响力。
- 分析特征相关性c以及方差s1^2、s2^2如何影响在不同方法中对抑制特征的归因。

实验结果
研究问题
- RQ1流行的XAI方法是否会对与目标Y统计独立的抑制变量赋予非零重要性?
- RQ2信息特征与抑制特征之间的相关性如何影响不同XAI方法生成的解释?
- RQ3能否用数据驱动的特征重要性定义在不同方法中区分真正信息特征与抑制变量?
- RQ4在存在抑制变量时,常见XAI方法有哪些理论上局限?
- RQ5当抑制场景存在时,替代解释(如不同价值函数的Shapley值、对照结果)表现如何?
主要发现
- 当特征之间存在相关性时,大多数被分析的XAI方法会对抑制特征赋予非零重要性,违反了数据驱动的重要性定义。
- Haufe模式变换可以去除贝叶斯最优分类器的抑制变量影响,与简单梯度或许多事后方法不同。
- 像素翻转和基于置换的重要性在相关噪声下往往会错误地赋予抑制变量重要性,需小心控制。
- 偏依赖图(PD)可能由于相关性而对抑制变量显示出表观依赖,揭示PD图在解释中的局限性。
- Shapley值取决于所选的价值函数;如果使用基于R^2的价值函数,抑制变量可能被判定不重要,但其他形式的价值函数可能赋予其重要性。
- 整合梯度、LIME和对照解释可能指示抑制变量的参与,凸显抑制场景下解释性的风险。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。