[论文解读] Post hoc Explanations may be Ineffective for Detecting Unknown Spurious Correlation
本论文评估事后解释(特征归因、概念激活、训练样本排名)是否能检测模型中的未知虚假相关性,结果发现它们往往效果不佳,尤其对不可见的虚假信号;仅当虚假信号可见且事先已知时,某些方法才有帮助。
We investigate whether three types of post hoc model explanations--feature attribution, concept activation, and training point ranking--are effective for detecting a model's reliance on spurious signals in the training data. Specifically, we consider the scenario where the spurious signal to be detected is unknown, at test-time, to the user of the explanation method. We design an empirical methodology that uses semi-synthetic datasets along with pre-specified spurious artifacts to obtain models that verifiably rely on these spurious training signals. We then provide a suite of metrics that assess an explanation method's reliability for spurious signal detection under various conditions. We find that the post hoc explanation methods tested are ineffective when the spurious artifact is unknown at test-time especially for non-visible artifacts like a background blur. Further, we find that feature attribution methods are susceptible to erroneously indicating dependence on spurious signals even when the model being explained does not rely on spurious artifacts. This finding casts doubt on the utility of these approaches, in the hands of a practitioner, for detecting a model's reliance on spurious signals.
研究动机与目标
- 激发在高风险领域中检测DNNs中虚假信号的必要性。
- 开发端到端的经验方法,用于注入已知虚假信号并评估解释。
- 量化三种解释范式在已知与未知虚假信号下的可靠性。
- 进行人机交互研究,以评估对从业者的实用性。
- 就何时以及如何在检测可见虚假信号时使解释结果可信,提供指南。
提出的方法
- 创建带有预设虚假伪迹的半合成数据集,以诱导模型依赖虚假信号。
- 定义一个虚假分数,用以量化模型对虚假信号的依赖程度。
- 开发三种可靠性度量:已知虚假信号检测度(K-SSD)、关切原因度量(CCM)和误警率度量(FAM)。
- 在多项任务和架构上评估三种事后解释类型——特征归因、概念激活(TCAV)和训练点排名(影响函数)——的表现。
- 进行一项对照盲法的200人用户研究,以评估对虚假依赖的实际可检测性。
- 在特征归因中使用结构相似性指数(SSIM),对概念激活和训练点排名比较使用KS检验。
实验结果
研究问题
- RQ1事后解释是否能在测试时检测到模型对未知虚假训练信号的依赖?
- RQ2特征归因、概念激活和训练点排名在检测可见虚假信号方面是否有效?
- RQ3在虚假伪迹的不同可见性条件(可见与不可见)下,这些解释的表现如何?
- RQ4在未被告知潜在虚假信号的情况下,实践者是否能通过解释可靠地识别有缺陷的模型?
- RQ5可以给从业者哪些关于有效使用解释来检测虚假相关性的指南?
主要发现
- 事后解释在信号事先已知时,能够识别对可见虚假信号的依赖;对于不可见信号(如背景模糊),有效性下降。
- 特征归因方法显示出高误警风险,表明即使模型不依赖于虚假信号,也可能对虚假信号有依赖。
- 概念激活(TCAV)在已知时可以检测可见的虚假信号,但在不可见信号上表现不佳,并且在信号未知时可靠性有限。
- 训练点排名(影响函数)仅在信号已知时才会增加虚假模型的顶层虚假输入比例,表明如果事前没有知识,可能产生错觉性信心。
- 盲法用户研究显示,在没有虚假信号先验知识时,任何解释方法都不能可靠地帮助用户检测有缺陷的模型;有先验知识时,TCAV 对可见信号显示出一定的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。