Skip to main content
QUICK REVIEW

[论文解读] Interpretability via Model Extraction

Osbert Bastani, Carolyn Kim|arXiv (Cornell University)|Jun 29, 2017
Explainable Artificial Intelligence (XAI)参考文献 13被引用 92
一句话总结

论文提出通过主动学习的模型提取,将黑盒模型近似为可解释模型(决策树),从而实现对复杂模型如随机森林、神经网络和强化学习策略的解释与调试。

ABSTRACT

The ability to interpret machine learning models has become increasingly important now that machine learning is used to inform consequential decisions. We propose an approach called model extraction for interpreting complex, blackbox models. Our approach approximates the complex model using a much more interpretable model; as long as the approximation quality is good, then statistical properties of the complex model are reflected in the interpretable model. We show how model extraction can be used to understand and debug random forests and neural nets trained on several datasets from the UCI Machine Learning Repository, as well as control policies learned for several classical reinforcement learning problems.

研究动机与目标

  • 激发对用于高风险决策的黑盒模型的可解释洞察需求。
  • 引入一个黑盒到可解释模型的提取框架。
  • 证明在有足够样本时,提取的可解释模型能近似原始模型。
  • 在随机森林、神经网络和强化学习策略上演示该方法。
  • 提供用于调试、公平性评估和模型比较的用例。

提出的方法

  • 将问题公式化为在对 f 进行黑盒访问的前提下,从 f 学习一个可解释的 T。
  • 用对 X_train 拟合一组轴对齐高斯混合来表示输入分布 P。
  • 使用在 P 下计算的类似 CART 增益,定义精确的贪心决策树 T*。
  • 通过从 P 在节点约束条件下采样 n 点来估计增益,以构建估计的贪心树 T。
  • 在温和假设下证明当 n 增大时,提取的树 T 收敛于 T*。
  • 在 UCI 数据集和 CartPole RL 策略上,经验性地将提取的树 T 与 CART 基线进行比较,并展示可解释性收益。

实验结果

研究问题

  • RQ1通过主动采样学习的贪心、轴对齐决策树是否能高保真地近似黑盒模型 f?
  • RQ2增加样本数 n 是否提升提取树 T 相对于精确贪心树 T* 的保真度?
  • RQ3提取的 T 与 CART 基线在分类、回归和强化学习任务中的比较如何?
  • RQ4提取的可解释模型能否帮助诊断诸如对偏置特征或无效特征的依赖等问题?
  • RQ5提取的树在多大程度上能揭示学习到的控制策略的行为?

主要发现

  • 提取方法在所有报告的任务中相对于 CART 基线实现了更高的相对性能。
  • 提取的树揭示了对某些特征的依赖(如有偏见的或无效的特征),并可量化其影响。
  • 对于 CartPole 策略,一个7节点的小树就能捕捉到策略行为的相当部分并揭示方向性偏差。
  • 该方法支持子组分析(如性别效应),并能识别模型何处依赖敏感属性。
  • 跨模型比较(随机森林 vs 神经网络)表明提取的树可以突出显示特征影响模式,这些在仅从特征重要性看并不明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。