[论文解读] Interpretability and Explainability: A Machine Learning Zoo Mini-tour
本文综述了机器学习中的可解释性与解释性,阐明它们之间的区别,回顾评估方法,并提出一个带有示例方法的分类体系。
In this review, we examine the problem of designing interpretable and explainable machine learning models. Interpretability and explainability lie at the core of many machine learning and statistical applications in medicine, economics, law, and natural sciences. Although interpretability and explainability have escaped a clear universal definition, many techniques motivated by these properties have been developed over the recent 30 years with the focus currently shifting towards deep learning methods. In this review, we emphasise the divide between interpretability and explainability and illustrate these two different research directions with concrete examples of the state-of-the-art. The review is intended for a general machine learning audience with interest in exploring the problems of interpretation and explanation beyond logistic regression or random forest variable importance. This work is not an exhaustive literature survey, but rather a primer focusing selectively on certain lines of research which the authors found interesting or informative.
研究动机与目标
- 澄清在机器学习应用中可解释性、解释性与可理解性之间的定义与区别。
- 提供一个简明、面向实践者的可解释/解释性机器学习方法的分类体系。
- 总结可解释性和解释性评估方法并突出它们的优点与局限。
- 介绍具有代表性的方法和示例以说明当前的前沿技术。
提出的方法
- 在现有综述基础上提出了可解释/解释性机器学习技术的部分分类(如 Carvalho 等)。
- 区分可解释模型(固有可理解性)与解释方法(事后解释)。
- 回顾评估标准,包括基于应用的、基于人类的和基于功能的评估。
- 讨论在各领域以及GDPR背景下可解释/解释性机器学习的相关性与动机。
- 在分类体系中提供方法的具体示例,附简要描述和用例。
实验结果
研究问题
- RQ1在机器学习中可解释性与解释性的核心定义与实际区别是什么?
- RQ2我们如何对可解释/解释性机器学习方法的全景进行分类?
- RQ3有哪些评估策略可用,评估可解释性时存在哪些挑战?
- RQ4哪些代表性方法能够说明可解释/解释性机器学习的主要方向?
主要发现
- 没有普遍的正式定义可解释性或解释性;语境和受解释者的不同会影响。
- 准确性与可解释性之间的权衡并非普遍性,可能依赖于数据集。
- 覆盖可解释模型与解释方法的技术分类有助于组织该领域。
- 对可解释性的评估稀缺,缺乏统一标准,需要代理度量和基于任务的评估。
- 多种示例方法(例如 FLRs、SLIM、GAM、SpAM、SPINNs、CENs、SENN、AME)展示了全局与局部可解释性。
- 该综述将可解释性/解释性与安全性、公平性以及如GDPR这样的监管考虑等实际问题联系起来。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。