QUICK REVIEW

[论文解读] xGEMs: Generating Examplars to Explain Black-Box Models

Shalmali Joshi, Oluwasanmi Koyejo|arXiv (Cornell University)|Jun 22, 2018

Explainable Artificial Intelligence (XAI)参考文献 27被引用 18

一句话总结

xGEMs 提出了一种框架，通过沿潜在数据流形扰动数据点，生成流形引导的样本以解释黑箱分类器，从而实现对模型偏差的检测、训练过程中决策边界的可视化，以及超越准确率指标的模型比较。该方法使用无监督隐式生成模型作为数据流形的代理，并利用置信度流形量化模型在决策边界处的行为。

ABSTRACT

This work proposes xGEMs or manifold guided exemplars, a framework to understand black-box classifier behavior by exploring the landscape of the underlying data manifold as data points cross decision boundaries. To do so, we train an unsupervised implicit generative model -- treated as a proxy to the data manifold. We summarize black-box model behavior quantitatively by perturbing data samples along the manifold. We demonstrate xGEMs' ability to detect and quantify bias in model learning and also for understanding the changes in model behavior as training progresses.

研究动机与目标

为刑事司法和医疗保健等高风险领域中黑箱模型决策缺乏可靠且真实的解释提供解决方案。
克服现有解释方法依赖已有训练/测试样本或对抗样本的局限性。
提供一种诊断工具，可在不假设性能与可解释性之间存在权衡的前提下，探测模型在数据流形上的行为。
实现对偏差的检测，特别是针对性别或种族等受保护属性，并实现对模型校准性和决策边界动态的比较。

提出的方法

训练一个无监督隐式生成模型，作为底层数据流形的代理。
通过沿流形的基于梯度的扰动，生成穿越黑箱分类器决策边界的样本。
通过测量分类器预测概率随样本到决策边界距离的变化，构建‘置信度流形’。
对置信度流形拟合逻辑斯蒂函数，以量化训练过程中决策边界陡峭程度和置信度变化。
使用按类别和受保护属性（如性别）分层的二维直方图，展示逻辑斯蒂拟合参数，实现群体层面的模型比较。
可视化并分析置信度流形和可靠性图，以评估模型校准性并检测误分类模式。

实验结果

研究问题

RQ1流形引导的样本能否检测并量化黑箱模型在性别或种族等受保护属性上的偏差？
RQ2沿数据流形的置信度流形如何揭示模型在训练过程中的行为变化，特别是决策边界陡峭度和置信度变化？
RQ3置信度流形和逻辑斯蒂拟合参数能否提供比准确率或可靠性图等标准指标更具信息量的模型比较？
RQ4不同模型架构（如 ResNet 与 CNN+lrn）在通过流形引导样本探测时，其决策边界动态是否表现出显著差异？
RQ5流形引导的样本在多大程度上可作为模型校准性和鲁棒性的诊断工具，而无需依赖局部近似或对抗样本？

主要发现

即使在整体准确率相近的情况下，不同模型的样本置信度流形也表现出显著差异，表明其决策边界行为存在差异。
模型 2（CNN+lrn）的置信度流形比模型 1（ResNet）更陡峭，表明其在决策边界处预测置信度的过渡更剧烈。
对于金发男性，两个模型在逻辑斯蒂拟合中均表现出较低的 $x_0$ 值，表明预测置信度较低，可能暗示校准问题。
两个模型在训练过程中 $x_0$ 值的下降表明决策边界逐渐向某些样本（如样本 2，即金发人脸）靠近，表明存在动态边界学习过程。
逻辑斯蒂拟合参数的二维直方图揭示了在性别和类别群体之间决策边界行为的分层差异，从而实现偏差检测。
可靠性图与置信度流形分析相结合，为模型校准提供了互补性洞察，尤其在仅靠准确率指标难以比较时更具价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。