[论文解读] Towards A Rigorous Science of Interpretable Machine Learning
提出一个形式化框架和分类法,用于评估ML中的可解释性,将应用、人类研究和代理指标联系起来,并概述未解决的问题和研究议程。
As machine learning systems become ubiquitous, there has been a surge of interest in interpretable machine learning: systems that provide explanation for their outputs. These explanations are often used to qualitatively assess other criteria such as safety or non-discrimination. However, despite the interest in interpretability, there is very little consensus on what interpretable machine learning is and how it should be measured. In this position paper, we first define interpretability and describe when interpretability is needed (and when it is not). Next, we suggest a taxonomy for rigorous evaluation and expose open questions towards a more rigorous science of interpretable machine learning.
研究动机与目标
- 在ML中定义可解释性,并将其与可靠性、公平性等相关标准区分开。
- 论证对可解释性进行严格、基于证据的评估的必要性。
- 提出一个用于评估可解释性的分类法:application-grounded、human-grounded、和 functionally-grounded。
- 概述未解决的问题和用数据驱动的方法来揭示可解释性的潜在维度。
- 为研究者提供关于如何报告和框定可解释性工作的建议。
提出的方法
- 将可解释性定义为能够向人类解释或以人可理解的术语呈现的能力。
- 引入一个三层次的评估分类法:application-grounded、human-grounded、和 functionally-grounded。
- 讨论在人类参与实验中关于可解释性的权衡与设计考虑。
- 提出数据驱动的方法来发现可解释性的潜在因素,包括任务-方法矩阵和矩阵分解思想。
- 提出关于与任务相关和与方法相关的可解释性潜在维度的假设。
- 概述将主张与适当评估类型相匹配的最佳实践。
实验结果
研究问题
- RQ1在ML中,什么构成严格、基于证据的可解释性评估?
- RQ2应如何对可解释性进行分类,以使评估与论断相一致(特定于应用与通用)?
- RQ3哪些代理变量或因素最能在跨任务和方法中捕捉到可解释性?
- RQ4我们如何将 application-grounded、human-grounded、和 functionally-grounded 的评估联系起来?
- RQ5为构建可解释性研究的共同语言和知识库,需要解决哪些未解决的问题?
主要发现
- 可解释性缺乏单一、普遍公认的定义,需要形式化以实现有意义的比较。
- 提出了一种评估方法的分类法(application-grounded、human-grounded、functionally-grounded),以使评估与论断类型相一致。
- 人类评估是必不可少但具有挑战性;不同的评估类型会带来不同的成本和偏差。
- 数据驱动的方法(例如任务-方法矩阵与嵌入)可能揭示可解释性的潜在维度并指导方法选择。
- 识别了三个未解决的问题:选择合适的代理变量、设计保持终端任务本质的更简单任务,以及表征解释质量代理变量。
- 本文提供了将可解释性工作基于共同分类法落地并避免模糊论断的实用建议。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。