QUICK REVIEW

[论文解读] TIP: Typifying the Interpretability of Procedures

Amit Dhurandhar, Vijay S. Iyengar|arXiv (Cornell University)|Jun 9, 2017

Explainable Artificial Intelligence (XAI)参考文献 34被引用 18

一句话总结

本文提出了一种新颖的可解释性框架，称为 $δ$-可解释性，该框架将可解释性定义为相对于目标模型而非人类的性能提升，从而实现了基于准确率、鲁棒性和性能增益的可解释方法的系统性比较。该方法提出了置信度加权的知识蒸馏，利用复杂模型（如随机森林）来改进简单模型（如Lasso），并在合成数据、嗅觉数据、MNIST、CIFAR-10以及真实世界制造和FICO数据集上展示了显著的性能提升。

ABSTRACT

We provide a novel notion of what it means to be interpretable, looking past the usual association with human understanding. Our key insight is that interpretability is not an absolute concept and so we define it relative to a target model, which may or may not be a human. We define a framework that allows for comparing interpretable procedures by linking them to important practical aspects such as accuracy and robustness. We characterize many of the current state-of-the-art interpretable methods in our framework portraying its general applicability. Finally, principled interpretable strategies are proposed and empirically evaluated on synthetic data, as well as on the largest public olfaction dataset that was made recently available \cite{olfs}. We also experiment on MNIST with a simple target model and different oracle models of varying complexity. This leads to the insight that the improvement in the target model is not only a function of the oracle model's performance, but also its relative complexity with respect to the target model. Further experiments on CIFAR-10, a real manufacturing dataset and FICO dataset showcase the benefit of our methods over Knowledge Distillation when the target models are simple and the complex model is a neural network.

研究动机与目标

将可解释性形式化为非以人类为中心的属性，而是定义为目标模型在复杂模型引导下性能的相对提升。
开发一个通用框架，使基于准确率、鲁棒性等实用指标的可解释性方法比较成为可能。
提出并实证验证一种新型可解释性方法，通过复杂模型的置信度分数对知识迁移进行加权，以改进简单的目标模型。
证明目标模型的性能增益不仅取决于“最优”模型的准确率，还取决于其相对于目标模型的相对复杂度。
证明当目标模型较简单而复杂模型为深度神经网络时，所提方法优于标准知识蒸馏。

提出的方法

提出 $δ$-可解释性的正式定义，即由于复杂模型信息传递带来的目标模型性能提升，且目标模型类别保持不变。
将框架扩展至有限样本设置下的鲁棒性，证明在完整数据分布访问条件下可收敛至理想情况。
提出一种置信度加权蒸馏启发式方法，通过最小化复杂模型置信度偏离0.5的绝对偏差，并按目标模型预测置信度区间加权。
推导出在所提置信度加权训练流程下目标模型的理论误差界。
在合成数据和真实世界数据集（包括最大的公开嗅觉数据集、MNIST、CIFAR-10、制造数据集和FICO信用数据集）上应用该方法。
对复杂模型和目标模型均采用基于ResNet的架构，目标模型为复杂模型的小型变体，并采用温度缩放软标签蒸馏作为对比。

实验结果

研究问题

RQ1如何将可解释性形式化，使其独立于人类理解，而仅相对于目标模型？
RQ2复杂模型相对于目标模型的相对复杂度在多大程度上影响目标模型的性能增益？
RQ3能否利用复杂模型的置信度分数来提升更简单、本质可解释模型的准确率和可解释性？
RQ4当目标模型较简单而复杂模型为深度神经网络时，所提置信度加权蒸馏方法是否优于标准知识蒸馏？
RQ5改进后的目标模型能否产生可操作、人类可理解的洞察？如在嗅觉和FICO数据集等真实应用中所展示的那样？

主要发现

在嗅觉数据集上，所提置信度加权蒸馏方法显著提升了Lasso模型的性能，使人类专家能够识别与气味感知相关的有意义生物模式。
在FICO信用数据集上，当目标模型为简单逻辑回归时，该方法优于标准知识蒸馏，证明了从深度神经网络向简单模型的知识迁移更具优势。
在CIFAR-10上的实验表明，当目标模型较小时（如TM-4），该方法的测试准确率高于知识蒸馏，尤其在温度为40.5时，测试准确率达到0.751。
目标模型的性能提升并非仅由“最优”模型的准确率决定，还取决于复杂模型相对于目标模型的相对复杂度，这一结论在MNIST实验中通过改变“最优”模型复杂度得到验证。
为所提方法推导出理论误差界，表明当复杂模型置信度高且与目标模型预测置信度区间一致时，性能增益最大。
该框架成功涵盖并泛化了现有最先进可解释方法，展示了在多样化数据集和模型架构中的广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。