[论文解读] Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)
TCAV 引入 Concept Activation Vectors,以量化用户定义的高层概念如何影响模型预测,从而在不重新训练的情况下实现全局、基于概念的解释。它将方向导数与统计检验结合起来,以评估跨类别的概念敏感性。
The interpretation of deep learning models is a challenge due to their size, complexity, and often opaque internal state. In addition, many systems, such as image classifiers, operate on low-level features rather than high-level concepts. To address these challenges, we introduce Concept Activation Vectors (CAVs), which provide an interpretation of a neural net's internal state in terms of human-friendly concepts. The key idea is to view the high-dimensional internal state of a neural net as an aid, not an obstacle. We show how to use CAVs as part of a technique, Testing with CAVs (TCAV), that uses directional derivatives to quantify the degree to which a user-defined concept is important to a classification result--for example, how sensitive a prediction of "zebra" is to the presence of stripes. Using the domain of image classification as a testing ground, we describe how CAVs may be used to explore hypotheses and generate insights for a standard image classification network as well as a medical application.
研究动机与目标
- 用高层概念来提供对神经网络的人性化解释。
- 允许通过用户提供的示例自定义概念,超越训练数据标签。
- 提供一个无需重新训练或修改模型即可使用的即插即用解释方法。
- 定量评估概念对跨类别模型预测的全局重要性。
提出的方法
- 将概念定义为由用户提供的一组示例输入。
- 训练一个线性分类器,将概念示例的层激活与随机负样本分离,以获得 Concept Activation Vector (CAV)。
- 通过将激活沿 CAV 方向投影,计算方向导数(概念敏感性),以衡量对类别 logits 的影响。
- 将 TCAV 分数定义为对类别 k 的输入中方向导数为正的比例,从而得到一个全局解释性度量。
- 通过使用不同的随机负样本重复训练 CAV 并进行双尾 t 检验,结合 Bonferroni 校正来验证概念的统计显著性。
- 将 TCAV 扩展为 Relative TCAV,以在学习的子空间中比较相关概念。
实验结果
研究问题
- RQ1如何在神经网络的内部激活空间中表示高层次、易于人类解释的概念?
- RQ2我们是否可以在不重新训练模型的情况下,量化用户定义概念对模型预测的影响?
- RQ3TCAV 是否在跨数据类别上提供稳定且具有统计显著性的概念重要性度量?
- RQ4在网络的哪里(哪些层)学习了概念,这与预测影响有何关系?
- RQ5TCAV 能否揭示标准网络中的偏见或不希望的敏感性(例如对性别或种族的敏感)?
主要发现
- CAV 与预期概念一致,表现在定性排序和激活最大化可视化上。
- TCAV 分数揭示跨层的概念影响,靠近 logits 的层对预测具有更直接的强影响。
- 统计检验可排除虚假 CAV,产生鲁棒的概念检测结果。
- Relative CAV 使相关概念之间的细粒度比较成为可能。
- 在受控的真实标签实验中,TCAV 能紧密跟踪网络使用的真实概念,在某些情况下优于显著性图。
- 应用于医疗 DR 任务,TCAV 识别诊断相关概念并突出与领域专家期望的差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。