[论文解读] Interpretable & Explorable Approximations of Black Box Models
该论文提出BETA,一种与模型无关的框架,通过联合优化保真度、可解释性和无歧义规则覆盖度,生成全局、忠实且可解释的黑箱分类器近似。它采用一种新颖的子模优化方法,学习紧凑的决策集,以解释特征空间中不同且不重叠区域的模型行为,同时支持用户交互探索,提升现实决策场景中的理解效率。
We propose Black Box Explanations through Transparent Approximations (BETA), a novel model agnostic framework for explaining the behavior of any black-box classifier by simultaneously optimizing for fidelity to the original model and interpretability of the explanation. To this end, we develop a novel objective function which allows us to learn (with optimality guarantees), a small number of compact decision sets each of which explains the behavior of the black box model in unambiguous, well-defined regions of feature space. Furthermore, our framework also is capable of accepting user input when generating these approximations, thus allowing users to interactively explore how the black-box model behaves in different subspaces that are of interest to the user. To the best of our knowledge, this is the first approach which can produce global explanations of the behavior of any given black box model through joint optimization of unambiguity, fidelity, and interpretability, while also allowing users to explore model behavior based on their preferences. Experimental evaluation with real-world datasets and user studies demonstrates that our approach can generate highly compact, easy-to-understand, yet accurate approximations of various kinds of predictive models compared to state-of-the-art baselines.
研究动机与目标
- 开发一种针对黑箱分类器的全局解释框架,确保与原始模型高度保真,同时保持可解释性。
- 在非重叠特征空间区域上,联合优化保真度、可解释性和无歧义规则覆盖度。
- 基于用户指定的特征偏好,支持对模型行为进行交互式探索。
- 与最先进基线相比,降低解释的复杂度,同时不牺牲预测准确性。
- 评估人类用户是否能更准确、更快速地通过BETA生成的解释理解模型行为。
提出的方法
- 提出一种新颖的优化问题,结合保真度(匹配黑箱预测)、可解释性(最小化规则和谓词数量)以及非重叠规则覆盖度。
- 将优化建模为具有拟序约束的非正规、非单调子模函数,支持可证明的近似最优解。
- 采用具有1/5近似保证的近似局部搜索算法,高效求解NP难问题。
- 生成紧凑的决策集(if-then规则),将特征空间划分为不重叠区域,并对每个区域无歧义地分配类别标签。
- 通过允许用户指定感兴趣特征,支持交互式探索,动态优化解释以聚焦于相关子空间。
- 通过自适应调整邻域描述符,整合用户反馈,优先考虑与用户查询相关的特征。
实验结果
研究问题
- RQ1能否在黑箱模型解释中,通过全局解释框架联合优化保真度、可解释性和无歧义规则覆盖度?
- RQ2BETA生成的解释复杂度与最先进基线相比如何,体现在规则数和谓词数上?
- RQ3交互式探索在多大程度上提升了人类对模型行为的理解能力与推理速度?
- RQ4与其它方法相比,用户是否能更准确、更快速地通过BETA生成的近似推断模型行为?
- RQ5在真实世界数据集上,BETA、LIME-DS、IDS和BDL在保真度与可解释性权衡方面有何差异?
主要发现
- BETA在每条规则平均仅使用10个谓词的情况下,与黑箱模型达到85%的一致率,优于其他方法,后者至少需要20个谓词/条规则才能达到相同保真度。
- 仅使用5个邻域,BETA即达到85%一致率,而LIME需约20个邻域才能达到同等保真度。
- 在用户研究中,BETA实现94.5%的人类准确率,平均响应时间为160.1秒/题,显著优于IDS(89.2%准确率,231.1秒)和BDL(83.7%准确率,368.5秒)。
- 启用交互式探索后,平均响应时间降至78.3秒,相比非交互设置几乎减半。
- BETA生成的解释规则重叠率极低(1–2%),覆盖率高(95–98%),表明规则划分兼具精确性与全面性。
- BETA的交互式变体将人类准确率提升至98.3%,平均响应时间相比非交互设置减少50%以上。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。