[论文解读] Multi-dimensional concept discovery (MCD): A unifying framework with completeness guarantees
本论文提出多维概念发现(MCD),一个在隐藏模型表示中利用稀疏子空间聚类发现多维概念的框架,给出完整、全局可解释的模型推理分解,并提供概念激活图和相关性热图以实现对真实可信的 XAI 解释。
The completeness axiom renders the explanation of a post-hoc XAI method only locally faithful to the model, i.e. for a single decision. For the trustworthy application of XAI, in particular for high-stake decisions, a more global model understanding is required. Recently, concept-based methods have been proposed, which are however not guaranteed to be bound to the actual model reasoning. To circumvent this problem, we propose Multi-dimensional Concept Discovery (MCD) as an extension of previous approaches that fulfills a completeness relation on the level of concepts. Our method starts from general linear subspaces as concepts and does neither require reinforcing concept interpretability nor re-training of model parts. We propose sparse subspace clustering to discover improved concepts and fully leverage the potential of multi-dimensional subspaces. MCD offers two complementary analysis tools for concepts in input space: (1) concept activation maps, that show where a concept is expressed within a sample, allowing for concept characterization through prototypical samples, and (2) concept relevance heatmaps, that decompose the model decision into concept contributions. Both tools together enable a detailed understanding of the model reasoning, which is guaranteed to relate to the model via a completeness relation. This paves the way towards more trustworthy concept-based XAI. We empirically demonstrate the superiority of MCD against more constrained concept definitions.
研究动机与目标
- 在高风险决策中激发对全局模型的理解,超越局部归因。
- 提出一个通用、可信的概念定义,使用多维线性子空间(D4)和完整性关系。
- 开发一个实用的发现流程,使用稀疏子空间聚类和 PCA 来识别概念子空间。
- 提供工具(激活图和相关性热图)在保持完整性的同时分析输入空间中的概念。
- 在 ImageNet 模型上展示 MCD 相较于受限概念定义的优越性。
提出的方法
- 将一个概念定义为 F 维隐藏特征空间中的 d^l 维线性子空间 C^l。
- 使用稀疏子空间聚类(SSC)将特征向量聚成子空间,而不依赖于邻近性或预设维度。
- 通过 PCA 为每个簇构建概念基底,确定内在子空间维度 d^l(由 Fukunaga–Olsen 的启发式确定)。
- 通过包括正交补 C^⊥ 的完整基底,将新样本的激活分解为概念贡献。
- 计算概念激活图以在输入空间局部化概念表达;通过将池化特征投影到概念基底上来推导概念相关性热图。
- 定义全局概念相关性分数 η,以量化概念对最终预测的解释程度(完整性)。
实验结果
研究问题
- RQ1多维子空间概念在具备完整性保证的前提下,是否能够忠实分解模型的推理?
- RQ2相比一维/正交概念,多维概念是否能提供更简洁的全局解释?
- RQ3如何在局部(逐样本)和全局层面可视化并量化概念影响?
- RQ4不同概念发现变体(MCD-SSC、MCD-kmeans、ICE/MCD-PCA、MCD-SSC-orth)对完整性和可信性的影响?
- RQ5概念激活图和相关性热图是否可应用于包括 vision transformers 在内的各种体系结构,并且与线性最终层兼容?
主要发现
- MCD 实现了完整性分解,其中最终预测可以完全从概念相关性重构。
- 多维概念通常提供更简洁的解释(达到给定完整性所需的概念数量更少)相比于受限定义(D1-D3)。
- 概念激活图定位概念在输入空间中的表达位置,并且可以与原型进行配对以便解释。
- 概念相关性热图将类别对数输出分解为概念贡献,保留全局完整性关系。
- 该框架在 ImageNet 模型(ResNet-50、ResNet-50v2、Swin-T)上进行了演示,并支持各种概念发现变体。
- 正交子空间(MCD-SSC-orth)被发现不如任意旋转子空间对模型忠实。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。