Skip to main content
QUICK REVIEW

[论文解读] Model Agnostic Contrastive Explanations for Structured Data

Amit Dhurandhar, Tejaswini Pedapati|arXiv (Cornell University)|May 31, 2019
Fault Detection and Control Systems被引用 29
一句话总结

本文提出 MACEM,一种无需模型内部访问、仅通过查询黑箱分类模型即可生成结构化数据对比解释(相关正例与负例)的模型无关方法。该方法为真实特征与类别特征提供了系统性处理框架,在五个公开数据集上的定量与定性评估中,显著优于 LIME 的解释质量。

ABSTRACT

Recently, a method [7] was proposed to generate contrastive explanations for differentiable models such as deep neural networks, where one has complete access to the model. In this work, we propose a method, Model Agnostic Contrastive Explanations Method (MACEM), to generate contrastive explanations for \emph{any} classification model where one is able to \emph{only} query the class probabilities for a desired input. This allows us to generate contrastive explanations for not only neural networks, but models such as random forests, boosted trees and even arbitrary ensembles that are still amongst the state-of-the-art when learning on structured data [13]. Moreover, to obtain meaningful explanations we propose a principled approach to handle real and categorical features leading to novel formulations for computing pertinent positives and negatives that form the essence of a contrastive explanation. A detailed treatment of the different data types of this nature was not performed in the previous work, which assumed all features to be positive real valued with zero being indicative of the least interesting value. We part with this strong implicit assumption and generalize these methods so as to be applicable across a much wider range of problem settings. We quantitatively and qualitatively validate our approach over 5 public datasets covering diverse domains.

研究动机与目标

  • 开发一种模型无关的方法,仅通过查询访问模型的类别概率,为任意黑箱分类模型生成对比解释(相关正例与负例)。
  • 解决先前对比解释方法的局限性,即要求模型可微分,并假设所有特征为非负实数值且以零为基值。
  • 为真实与类别特征提供基值的系统性定义方法,从而在多种数据类型上实现有意义的对比解释。
  • 确保解释结果可信且符合专家直觉,尤其在金融与医疗等受监管领域。
  • 在多样化结构化数据基准上,通过定量与定性方式验证该方法,证明其优于现有方法(如 LIME)。

提出的方法

  • MACEM 使用基于 FISTA 的优化框架,计算稀疏扰动,以保持或改变模型预测结果,从而形成相关正例(PPs)与相关负例(PNs)。
  • 提出一种新颖的基值定义公式,适用于真实与类别特征,其中基值代表每类特征类型的最低信息量或中性状态。
  • 对于真实特征,基值根据特征分布定义为最小值或中位数,以确保语义一致性。
  • 对于类别特征,基值由众数或中性类别确定,并采用独热编码策略,以支持无梯度优化。
  • 将相关正例与负例的搜索建模为约束优化问题,在保持或改变模型输出类别的同时,最小化 L1-范数扰动。
  • 利用基于查询的模型访问,通过有限差分法估计梯度,实现在无需模型内部信息的情况下进行优化。

实验结果

研究问题

  • RQ1能否仅通过查询访问,为非可微模型(如随机森林与梯度提升树)有效生成对比解释?
  • RQ2如何为真实与类别特征有意义地定义基值,以确保相关正例与负例的语义一致性?
  • RQ3与 LIME 相比,该方法在特征重要性与模型敏感性方面是否生成了更准确、更可信的解释?
  • RQ4相关正例与负例在多大程度上捕获了模型决策的互补信息,尤其是在与决策树路径对比时?
  • RQ5MACEM 生成的专家验证解释是否能比基于代理模型的方法更好地反映领域特定知识?

主要发现

  • 在五个公开数据集上,MACEM 在 CFIP_PP 与 CFIP_PN 指标上均优于 LIME,对相关正例与负例中关键特征的识别准确率更高。
  • 在德国信贷数据集中,50 个相关正例中有 44 个、50 个相关负例中有 38 个由金融专家判定为合理,而 LIME 分别仅获得 27 个与 19 个合理判断。
  • 在嗅觉数据集中,50 个相关正例中有 41 个、50 个相关负例中有 39 个由神经科学专家判定为合理,而 LIME 分别仅获得 32 个与 20 个合理判断。
  • 在德国信贷与嗅觉数据集的超过 80% 输入中,MACEM 的 top PP 特征与模型决策路径中的 top 特征一致,表明具有全局可解释性。
  • MACEM 的相关负例始终比 LIME 更准确,因其代表了最小但有意义的扰动,足以使模型预测发生改变,此结论得到专家反馈确认。
  • 该方法成功泛化至多种结构化数据类型,包括实值与类别特征,且无需依赖模型可微性或对特征语义的强假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。