[论文解读] TreeView: Peeking into Deep Neural Networks Via Feature-Space Partitioning
TreeView 提出了一种分层特征空间划分方法,用于在不损失准确率的前提下解释深度神经网络,通过从聚类的隐藏表示中提取的元特征以及决策树代理模型,可视化分类的逐步排除过程。该方法通过可解释的、基于因子的推理路径将输入特征与分类预测相连接,实现了忠实且高准确率的可解释性。
With the advent of highly predictive but opaque deep learning models, it has become more important than ever to understand and explain the predictions of such models. Existing approaches define interpretability as the inverse of complexity and achieve interpretability at the cost of accuracy. This introduces a risk of producing interpretable but misleading explanations. As humans, we are prone to engage in this kind of behavior \cite{mythos}. In this paper, we take a step in the direction of tackling the problem of interpretability without compromising the model accuracy. We propose to build a Treeview representation of the complex model via hierarchical partitioning of the feature space, which reveals the iterative rejection of unlikely class labels until the correct association is predicted.
研究动机与目标
- 解决深度学习模型缺乏成熟、准确的可解释性框架的问题,且不损害预测性能。
- 开发一种可视化方法,通过分层特征空间划分揭示深度网络中分类预测的顺序逻辑。
- 使分析人员能够追踪错误分类假设如何被系统性地排除,从而得出正确预测。
- 通过从隐藏层神经元激活聚类中构建元特征,提供可解释的、与模型无关的解释。
- 通过特征空间抽象,弥合复杂高性能深度网络与人类可理解的决策路径之间的差距。
提出的方法
- 该方法将深度神经网络的隐藏特征空间划分为 K 个重叠因子,每个因子代表一组在训练样本中具有相似激活模式的神经元。
- 对于每个因子,将激活聚类为 L 个组,并通过聚合样本在所有 K 个因子上的聚类标签,为每个样本构建一个元特征向量。
- 为每个因子训练一个随机森林分类器,以从输入空间预测聚类标签,从而解释哪些输入特征驱动了每个因子的决策。
- 在元特征上训练一个决策树代理模型,以模拟整个网络的分类行为,从而实现可追踪的、分层的预测路径。
- TreeView 可视化将决策树中的每个节点映射为一个假设排除步骤,显示在每个因子层级上排除了哪些类别标签。
- 展示每个因子特异性预测器的输入特征重要性排名,帮助用户在心理上将输入数据与分类预测关联起来。
实验结果
研究问题
- RQ1是否可以通过特征空间的分层划分来解释深度神经网络的决策,而不会降低模型的准确率?
- RQ2如何以反映深度网络实际决策过程的方式,可视化错误分类假设的逐步排除?
- RQ3从聚类的隐藏表示中提取的元特征,在多大程度上能同时保持预测性能并增强可解释性?
- RQ4因子特异性输入特征重要性排名在多大程度上能提升人类对输入数据与最终预测之间关联的理解?
- RQ5在正确分类与错误分类的样本中,TreeView 可视化在假设排除模式上存在哪些差异?
主要发现
- TreeView 框架在 UCI 图像分割数据集上实现了 96% 和 94% 的分类准确率,证明了可解释性无需以牺牲模型性能为代价。
- 对于正确分类的样本,TreeView 可视化显示,根因子迅速排除了多个类别(如 Grass、Path、Sky、Window),随后通过三个额外因子逐步排除 Cement。
- 在误分类样本中,可视化显示网络未能清晰区分 Foliage 与真实标签 Window,表明在因子层级上判别能力出现崩溃。
- 来自因子特异性预测器的高排名输入特征(以红色显示)为驱动每个决策步骤的数据模式提供了可操作的洞察,使分析人员能够验证其对数据-标签关系的心理模型。
- TreeView 框架成功实现了在因子、类别标签与输入数据之间的过渡,同时保持与网络内部表征的相关性。
- 该方法使分析人员能够追踪从输入到输出的决策路径,揭示模型如何通过特征空间划分逐步缩小可能标签的集合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。