[论文解读] CXPlain: Causal Explanations for Model Interpretation under Uncertainty
CXPlain 训练一个独立的解释模型,以对任意预测器的特征重要性进行因果估计,并具有基于自举的不确定性,优于许多与模型无关的方法,并实现快速解释。
Feature importance estimates that inform users about the degree to which given inputs influence the output of a predictive model are crucial for understanding, validating, and interpreting machine-learning models. However, providing fast and accurate estimates of feature importance for high-dimensional data, and quantifying the uncertainty of such estimates remain open challenges. Here, we frame the task of providing explanations for the decisions of machine-learning models as a causal learning task, and train causal explanation (CXPlain) models that learn to estimate to what degree certain inputs cause outputs in another machine-learning model. CXPlain can, once trained, be used to explain the target model in little time, and enables the quantification of the uncertainty associated with its feature importance estimates via bootstrap ensembling. We present experiments that demonstrate that CXPlain is significantly more accurate and faster than existing model-agnostic methods for estimating feature importance. In addition, we confirm that the uncertainty estimates provided by CXPlain ensembles are strongly correlated with their ability to accurately estimate feature importance on held-out data.
研究动机与目标
- 激发对快速、准确的特征重要性估计的需求,这些估计能够量化任何机器学习模型的不确定性。
- 引入一个因果解释(CXPlain)框架,该框架在不重新训练被解释模型的情况下学习解释另一个模型。
- 通过对解释模型进行自举重采样来实现特征重要性的不确定性量化。
- 证明 CXPlain 在提供可靠的不确定性估计的同时,比现有方法更准确、更快速。
提出的方法
- 通过训练一个独立的 CXPlain 模型来解释目标模型 fhat(而不重新训练它),将解释问题表述为有监管的学习任务。
- 使用一种因果目标,通过受格兰杰因果启发的损失来量化某一特征对预测准确性的边际贡献。
- 通过比较包含与不包含每个特征时的预测损失(将 x_i 掩蔽得到 X\\{i})来计算每个样本的特征重要性,并归一化为分布 Ω。
- 将因果损失定义为 L_causal = (1/N) sum KL(Omega_X, A_X) 以使 CXPlain 的输出与真实因果重要性对齐。
- 探索用于解释模型的神经网络结构(MLP 和 U-net),以处理不同的数据模态,并就针对图像的潜在专业化作出注记。
- 整合自举集成以推导特征重要性的不确定性估计,使用集合中位数和基于百分位数的置信区间。
实验结果
研究问题
- RQ1CXPlain 是否能够在标准基准(MNIST、ImageNet)以及跨数据模态上,比最先进的模型无关方法在特征重要性估计方面取得更高的准确性?
- RQ2在评估阶段,CXPlain 是否比现有的模型无关归因方法更快,同时保持模型无关性?
- RQ3基于自举的不确定性估计是否可靠地反映了在未见数据上的分配的特征重要性的准确性?
- RQ4架构选择(MLP 与 U-net)如何影响图像数据的解释质量?
主要发现
- CXPlain(尤其是使用 U-net 架构时)在 MNIST 和 ImageNet 基准测试中的准确性达到甚至优于最先进的方法。
- CXPlain 在评估时显著快于像 LIME 和 SHAP 这样的模型无关方法。
- 自举集成产生的不确定性估计与在未见数据上的特征重要性估计的真实质量相关,随着集合大小的增加而提高。
- 针对图像数据的专门化架构(如 U-net)比通用 MLP 在解释性能上表现更好。
- CXPlain 的解释倾向于更关注语义上显著的区域,从而产生定性上更清晰的归因。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。