[论文解读] Interpreting Blackbox Models via Model Extraction
The paper presents a method to extract global, interpretable decision trees that closely approximate a blackbox model by actively sampling data; it evaluates fidelity and interpretability against baselines and demonstrates practitioner insights from the extracted trees.
Interpretability has become incredibly important as machine learning is increasingly used to inform consequential decisions. We propose to construct global explanations of complex, blackbox models in the form of a decision tree approximating the original model---as long as the decision tree is a good approximation, then it mirrors the computation performed by the blackbox model. We devise a novel algorithm for extracting decision tree explanations that actively samples new training points to avoid overfitting. We evaluate our algorithm on a random forest to predict diabetes risk and a learned controller for cart-pole. Compared to several baselines, our decision trees are both substantially more accurate and equally or more interpretable based on a user study. Finally, we describe several insights provided by our interpretations, including a causal issue validated by a physician.
研究动机与目标
- 将可解释的全局解释作为局部解释或完全可解释模型的替代方案来激励研究。
- 提出一种黑盒模型到决策树的提取算法,通过主动采样数据以避免过拟合。
- 证明所提取的决策树在多任务上能紧密近似黑盒模型,并且在用户研究中具备同等或更高的可解释性。
- 展示从解释中得出的实用洞见,包括临床医生验证的因果观察以及提供者依赖的协变量移动。
提出的方法
- 对轴对齐决策树的模型提取,以逼近黑盒函数 f。
- 主动采样:在当前节点可行区域内,从估计的输入分布 P 迭代抽样 x,并用 f(x) 标记。
- 通过带有 EM 的轴对齐高斯混合来估计输入分布 P。
- 将精确贪婪树构造(无限数据)作为目标,然后用每次分裂的 n 个样本近似,以形成有限提取器。
- 分裂选择使用基于 Gini 不纯度的增益 G(i,t),基于在 P 下的条件标签分布,叶子标签由 C_N 及其子合取下的多数概率确定。
- 提供采样和剪枝规则来处理约束 C(x_i ∈ [s_i, t_i]),并在给定 C 的情况下确保 p_P 的可采样性可行。
- 证明一致性:当 n → ∞ 时,提取的树 Ť 收敛到精确的贪婪树 T*(在足够样本下具备 ε, δ-精确)。
实验结果
研究问题
- RQ1一个全局、可解释的模型(决策树)是否能够真实地近似复杂的黑盒模型?
- RQ2主动采样是否相对于基线提取方法实现更高的保真度并减少过拟合?
- RQ3在用户研究中,提取的决策树是否与竞争性解释(规则清单、决策集)一样可解释或更具可解释性?
- RQ4将提取的树应用于真实数据集时,可以得出何种洞见(包括非因果或提供者相关效应)?
- RQ5提取的解释是否揭示了其他可解释性方法难以捕捉的模型行为或偏差?
主要发现
| 数据集 | 任务 | # 特征 | 结果 | # 训练 | # 测试 | 黑盒模型 | 黑盒性能 |
|---|---|---|---|---|---|---|---|
| diabetes risk | classification | 384 | {high risk, low risk} | 404 | 174 | random forest | F1 = 0.24 |
| cart-pole (Barto et al. 1983) | reinforcement learning | 4 | {left, right} | 100 | 100 | control policy | reward = 200.0 |
- 所提主动采样树提取在基准测试中对黑盒模型的保真度高于 CART 和 Born Again Trees。
- 该方法提取的决策树在与机器学习研究生的用户研究中,与基线相比具有同等或更高的可解释性。
- 在糖尿病风险与卡尔特-摆任务中,提取的树保持对黑盒模型决策的准确反映(高保真),同时能够检查子人群效应和潜在的非因果模式。
- 该方法揭示糖尿病风险模型中的协变量漂移和提供者特定差异,以及在卡尔特-摆策略中的平移不变性与反射偏差,提供可操作的诊断洞见。
- 该方法在样本增多时显示出稳定性和一致性提升,在多次提取中在节点一致性方面优于 Born Again Trees。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。