[论文解读] Benchmarking Attribution Methods with Relative Feature Importance
本文介绍 BAM,一个带有半自然数据集和模型的框架,用于量化评估特征归因方法,利用已知的相对特征重要性,以及三种用于检测假阳性的度量。
Interpretability is an important area of research for safe deployment of machine learning systems. One particular type of interpretability method attributes model decisions to input features. Despite active development, quantitative evaluation of feature attribution methods remains difficult due to the lack of ground truth: we do not know which input features are in fact important to a model. In this work, we propose a framework for Benchmarking Attribution Methods (BAM) with a priori knowledge of relative feature importance. BAM includes 1) a carefully crafted dataset and models trained with known relative feature importance and 2) three complementary metrics to quantitatively evaluate attribution methods by comparing feature attributions between pairs of models and pairs of inputs. Our evaluation on several widely-used attribution methods suggests that certain methods are more likely to produce false positive explanations---features that are incorrectly attributed as more important to model prediction. We open source our dataset, models, and metrics.
研究动机与目标
- 提供一个定量框架,使用模型和输入之间已知的相对特征重要性来评估归因方法。
- 通过将物体粘贴到具有受控相对重要性的场景中,创建一个半自然的 BAM 数据集。
- 开发三种互补度量(MCS、IDR、IIR),以评估归因方法并识别假阳性。
提出的方法
- 通过将 MSCOCO 的对象像素粘贴到 MiniPlaces 场景图像中来构建 BAM 数据集,创建 10 个对象类别和 10 个场景类别,总共 10 万张图像。
- 定义常见特征(CF)及其共同性 k,以在模型和输入之间控制相对特征重要性。
- 在不同标签集上训练两个分类器 f_o 和 f_s,以建立与模型相关的特征重要性(对象与场景)。
- 在 CF 集 X_{o,s}^k 上训练场景分类器,以 modulate CF 相对重要性在 k ∈ {0.1,...,1.0} 的变化,并衡量移除 CF 的影响。
- 提出三种度量——模型对比分数(Model Contrast Score, MCS)、输入依赖率(Input Dependence Rate, IDR)、输入独立率(Input Independence Rate, IIR)——以在 BAM 条件下比较归因。
- 给出计算区域平均归因 g_c、概念归因 G_c,以及这三种度量的方程。
实验结果
研究问题
- RQ1当已知模型和输入之间的相对特征重要性时,归因方法在假阳性方面的表现如何?
- RQ2在 BAM 下,是否有某些归因方法系统性地将重要性错误地归给不太相关的特征?
- RQ3BAM 指标是否能引导在特定任务需求(例如鲁棒性、低假阳性)下选择归因方法?
- RQ4当 CF 重要性在模型和输入之间变化时,归因方法的表现如何?
- RQ5MCS 与对 CF 移除的实际鲁棒性之间是否存在相关性?
主要发现
- 某些归因方法更容易产生假阳性,错误地提高对不那么相关特征的重要性。
- GC 和 VG 趋向具有更强的真正阳性表现,在某些设置下 TCAV 往往显示出最高的模型对比分数。
- MCS、IDR 和 IIR 提供互补洞见,方法排名因度量而异,因此选择取决于所期望的评估标准。
- VG(梯度为基础)在 IDR 和 IIR 上往往表现良好,挑战了“更复杂的扰动式方法总更优”的观念。
- IIR 显示许多方法对功能上无关的扰动(例如一个类似狗的 delta)赋予高重要性,质疑某些可视化做法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。