QUICK REVIEW

[论文解读] Local Interpretable Model-agnostic Explanations of Bayesian Predictive Models via Kullback-Leibler Projections

Tomi Peltola|arXiv (Cornell University)|Oct 5, 2018

Explainable Artificial Intelligence (XAI)参考文献 7被引用 30

一句话总结

本文提出KL-LIME，一种通过最小化原始模型预测分布与更简单、可解释的解释模型（如稀疏线性模型）之间的Kullback-Leibler散度，来生成贝叶斯预测模型的局部可解释性解释的方法，从而保留不确定性量化。该方法为复杂模型（如贝叶斯深度神经网络）提供了忠实且具备不确定性感知的局部解释，在MNIST数字分类任务中展示了改进的可解释性与保真度权衡。

ABSTRACT

We introduce a method, KL-LIME, for explaining predictions of Bayesian predictive models by projecting the information in the predictive distribution locally to a simpler, interpretable explanation model. The proposed approach combines the recent Local Interpretable Model-agnostic Explanations (LIME) method with ideas from Bayesian projection predictive variable selection methods. The information theoretic basis helps in navigating the trade-off between explanation fidelity and complexity. We demonstrate the method in explaining MNIST digit classifications made by a Bayesian deep convolutional neural network.

研究动机与目标

为解决复杂贝叶斯预测模型的解释挑战，提供局部的、人类可理解的解释。
通过在解释中整合不确定性量化，将LIME框架扩展至贝叶斯模型。
利用信息论原则，实现对多种预测类型（如连续型、分类型、右删失型）的模型无关解释。
通过基于KL散度的最小化与投影预测变量选择，实现解释保真度与复杂度的合理权衡。
在贝叶斯深度学习模型（如MNIST上的贝叶斯卷积神经网络）上展示该方法的有效性。

提出的方法

KL-LIME通过最小化原始模型预测分布与解释模型（如稀疏线性模型）之间KL散度，将贝叶斯模型的预测分布投影到更简单、可解释的解释模型上。
通过扰动输入数据（如随机掩码图像中的像素）定义局部性分布，并根据样本与目标输入点的相似度对样本进行加权。
通过优化解释模型在扰动样本上的预测与原始模型预测之间的加权L2损失，拟合解释模型。
该方法整合了贝叶斯投影预测变量选择，以识别解释模型中最具相关性的特征，同时考虑模型不确定性。
使用解释模型参数的后验样本可视化解释中的不确定性，提供比点估计更丰富的解释信息。
通过相对解释力曲线评估解释保真度与复杂度之间的权衡，指导最优解释稀疏度的选择。

实验结果

研究问题

RQ1如何在保留认知不确定性与随机不确定性的同时，为贝叶斯预测模型生成局部可解释性解释？
RQ2KL散度最小化在多大程度上能提升复杂贝叶斯模型（如深度神经网络）的解释保真度与可解释性？
RQ3在解释中包含不确定性如何影响现实应用中模型解释的可靠性与可信度？
RQ4所提出的方法能否以模型无关的方式应用于多种预测类型（如分类、回归、右删失数据）？
RQ5解释复杂度与保真度之间的最优权衡是什么？如何对其进行定量评估？

主要发现

KL-LIME成功为MNIST上的贝叶斯深度卷积神经网络生成了局部可解释性解释，在使用基于Dropout的贝叶斯近似方法实现99.2%测试准确率的同时，保留了不确定性量化。
相对解释力曲线在约0.85处趋于平缓，表明在所选解释模型下无法实现完美保真度，凸显了复杂度与准确度之间的自然权衡。
平均解释显示，数字'8'上半部分环形结构的左侧对将其分类为'8'的贡献最大，而右侧则与误分类为'3'相关。
解释中的方差在上半部分环形结构的左侧最高，反映出该区域特征重要性的不确定性更大。
解释模型参数的后验样本在多次抽样中呈现出一致的模式，证实了方法的稳健性，并为模型不确定性在解释中的体现提供了洞见。
该方法表明，即使在图像任务中解释复杂（如包含大量激活像素）的情况下，解释依然可读，但在文本或医学数据等非视觉领域，保真度与复杂度之间的权衡变得尤为关键。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。