[论文解读] Inverse Classification for Comparison-based Interpretability in Machine Learning
本文提出 Growing Spheres 方法,这是一种模型无关且数据无关的后训练可解释性方法,通过在稀疏性约束的距离度量下寻找最接近的反事实样本(即相反类别最近邻),来解释单个分类器预测。该方法通过在输入空间中迭代扩展球体以定位使预测翻转的最小扰动,生成稀疏且基于比较的解释,在图像和表格数据上表现出高稀疏性(≤7.9% 的特征被使用),证明了其有效性。
In the context of post-hoc interpretability, this paper addresses the task of explaining the prediction of a classifier, considering the case where no information is available, neither on the classifier itself, nor on the processed data (neither the training nor the test data). It proposes an instance-based approach whose principle consists in determining the minimal changes needed to alter a prediction: given a data point whose classification must be explained, the proposed method consists in identifying a close neighbour classified differently, where the closeness definition integrates a sparsity constraint. This principle is implemented using observation generation in the Growing Spheres algorithm. Experimental results on two datasets illustrate the relevance of the proposed approach that can be used to gain knowledge about the classifier.
研究动机与目标
- 解决在无法获取模型或训练数据信息的情况下,解释黑箱分类器预测的挑战。
- 开发一种后训练可解释性方法,通过与不同类别的最近实例进行比较来解释单个预测。
- 通过在距离度量中引入稀疏性约束,确保解释具有稀疏性且在局部具有意义。
- 在不依赖模型内部结构或训练数据的情况下,揭示复杂分类器的局部决策边界。
- 在真实世界数据集上验证该方法,并证明其能够揭示分类器行为,包括潜在偏差或错误。
提出的方法
- 该方法将解释任务表述为在稀疏性约束的距离度量下,寻找使输入实例预测类别发生翻转的最小扰动。
- 采用 Growing Spheres 算法,通过逐步扩大输入实例周围的超球体,以定位最近的反事实实例(即不同类别的点)。
- 该算法采用局部搜索策略,通过受控扰动生成新样本,由分类器输出进行引导。
- 代价函数在原始实例的接近度与扰动的稀疏性之间进行权衡,倾向于仅修改少数特征的解释。
- 当找到反事实实例时,搜索终止,确保解释既接近又稀疏。
- 该方法完全与模型无关,仅需访问分类器的推理接口,无需其架构或训练数据。
实验结果
研究问题
- RQ1在无法访问模型内部结构或训练数据的情况下,如何解释黑箱分类器的单个预测?
- RQ2生成稀疏且局部相关的反事实解释的最有效方法是什么?
- RQ3像 Growing Spheres 这类生成式、基于实例的方法能否可靠地定位使分类器预测发生翻转的最小扰动?
- RQ4即使模型复杂或非线性,生成的解释在多大程度上能反映分类器的局部决策边界?
- RQ5在图像识别等感知上有意义的任务中,这些解释在特征重要性方面与人类直觉相比如何?
主要发现
- Growing Spheres 算法成功识别出需要最小且稀疏扰动即可翻转预测的反事实实例,100% 的测试实例仅使用最多 62 个特征(占总特征数的 7.9%)即可解释。
- 在数字分类任务中,该方法正确识别出数字底部左区域的改变(如闭合或打开环形结构)是导致 8 和 9 之间预测翻转的最关键因素。
- 尽管分类器准确率很高(AUC 为 0.98),但其表现出非直观行为,例如将右上角像素的变化视为关键影响因素,表明其决策边界可能存在不准确之处。
- 生成的反事实实例并不总是视觉上合理(例如出现噪声或失真数字),表明分类器学习的决策边界与人类概念理解存在差异。
- 该方法在新闻流行度预测任务中提供了关于特征重要性的有意义洞察,无需访问模型即可揭示局部关键特征。
- 该方法在真实世界应用中表现出鲁棒性和可解释性,证实其在数据和模型无关场景下理解黑箱分类器的实用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。