[论文解读] Interpretable Deep Learning: Interpretation, Interpretability, Trustworthiness, and Beyond
对解释与可解释性之间的关系进行全面梳理,提出解释算法的三维分类法,评估可信度,并将解释与相关主题及开源工具联系起来。
Deep neural networks have been well-known for their superb handling of various machine learning and artificial intelligence tasks. However, due to their over-parameterized black-box nature, it is often difficult to understand the prediction results of deep models. In recent years, many interpretation tools have been proposed to explain or reveal how deep models make decisions. In this paper, we review this line of research and try to make a comprehensive survey. Specifically, we first introduce and clarify two basic concepts -- interpretations and interpretability -- that people usually get confused about. To address the research efforts in interpretations, we elaborate the designs of a number of interpretation algorithms, from different perspectives, by proposing a new taxonomy. Then, to understand the interpretation results, we also survey the performance metrics for evaluating interpretation algorithms. Further, we summarize the current works in evaluating models' interpretability using "trustworthy" interpretation algorithms. Finally, we review and discuss the connections between deep models' interpretations and other factors, such as adversarial robustness and learning from interpretations, and we introduce several open-source libraries for interpretation algorithms and evaluation approaches.
研究动机与目标
- 澄清解释(interpretations)与模型可解释性(interpretability)之间的区别。
- 提出一个解释算法的三维分类法(表示、目标模型类型,以及与模型的关系)。
- 评审用于解释算法可信度和模型可解释性的评估方法。
- 讨论解释与鲁棒性、对抗样本、以及从解释中学习等主题的联系。
- 介绍开源库以及对深度模型研究与审计的实际意义。
提出的方法
- 提出一个三维分类法来对解释算法进行分类(表示、目标模型类型、以及与模型的关系)。
- 调查广泛的解释方法(局部/全局特征重要性、扰动、梯度、CAM/Grad-CAM、扰动、对抗示例、原型、TCAV 等)。
- 将可信度定义并讨论作为解释算法和模型可解释性的核心标准。
- 分析用于可信度与可解释性的评估方法,包括基于扰动的以及真实/专家方法。
- 讨论解释如何与自解释和完全可解释模型及更广泛主题(鲁棒性、数据驱动学习、科学发现)相关。
- 提供指南并提及用于解释与评估的开源库。
实验结果
研究问题
- RQ1解释、解释算法、与模型可解释性之间的精确关系是什么?
- RQ2如何对解释算法进行分类法分组,以覆盖多样化的方法?
- RQ3应如何定义、测量并确保解释和模型可解释性的可信度?
- RQ4解释结果与对抗鲁棒性、数据解释等其他方面之间的关系是什么?
- RQ5有哪些库和资源可用于支持解释研究与评估?
主要发现
- 论文澄清了解释(explanations)与模型可解释性(模型的内在属性)之间的区别。
- 提出了一种新颖的三维解释算法分类法:解释的表示、目标模型类型,以及与模型的关系。
- 可信度被确定为解释及其评估的核心愿望,并讨论了测量挑战。
- 综述将解释与相关主题如对抗鲁棒性、从解释中学习,以及自解释/可解释模型联系起来。
- 对解释与可解释性的开源库及评估方法进行了概览。
- 本工作强调可解释性是以人为中心的,且常缺乏真实地面真相,促使构建结构化评估框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。