[论文解读] Compositional Explanations of Neurons
简要结论:本文提出一种通过把逻辑概念组成解释来解释单个神经元的方法,揭示视觉和自然语言处理神经元中的感知抽象和浅层启发式,并展示这些解释如何与性能相关联以及如何引导有针对性的对抗性扰动。
We describe a procedure for explaining neurons in deep representations by identifying compositional logical concepts that closely approximate neuron behavior. Compared to prior work that uses atomic labels as explanations, analyzing neurons compositionally allows us to more precisely and expressively characterize their behavior. We use this procedure to answer several questions on interpretability in models for vision and natural language processing. First, we examine the kinds of abstractions learned by neurons. In image classification, we find that many neurons learn highly abstract but semantically coherent visual concepts, while other polysemantic neurons detect multiple unrelated features; in natural language inference (NLI), neurons learn shallow lexical heuristics from dataset biases. Second, we see whether compositional explanations give us insight into model performance: vision neurons that detect human-interpretable concepts are positively correlated with task performance, while NLI neurons that fire for shallow heuristics are negatively correlated with task performance. Finally, we show how compositional explanations provide an accessible way for end users to produce simple "copy-paste" adversarial examples that change model behavior in predictable ways.
研究动机与目标
- 识别神经元在视觉和自然语言处理中的学习是有意义的组成概念,还是多义/无关的激活。
- 评估组成性解释与跨任务的模型性能之间的关系。
- 演示神经元解释是否能够通过有针对性的输入实现对模型行为的可预测操控。
提出的方法
- 将原始概念定义为空间作为对输入的二元检测器(例如图像区域、词汇特征)。
- 将神经元激活转换为二进制掩码,并通过 IoU 与概念的相似度进行度量。
- 使用或、与、非以及邻居运算符将其扩展为组成逻辑形式,以创建 L(C)。
- 通过束搜索在组成空间中搜索最佳解释 L,设定长度上限(N),以最大化 IoU。
- 将该方法应用于图像分类(Places365 上的 ResNet-18,带 Broden 注释)和自然语言推理(SNLI,使用 BiLSTM + MLP,探测前提/假设词汇和重叠)。
- 比较不同公式长度下的解释质量(IoU),以评估组成性和可解释性。
实验结果
研究问题
- RQ1神经元在视觉和 NLP 模型中学习了哪些类型的组成性概念?
- RQ2神经元解释的可解释性与跨任务的模型准确性之间有何关系?
- RQ3是否可以通过有针对性的输入,使用组成性神经元解释来预测并影响模型行为?
主要发现
- 神经元往往学习组成性概念;一些检测器捕捉到有意义的抽象,而另一些则是多义的或依赖于无关特征。
- 基于 IoU 的解释质量随着公式长度增加而提升,在图像分类中从 N=1 时的平均值 0.059 提升到 N=10 时的 0.099(显著提升;p=2e-9)。
- 在视觉领域,更具可解释性的神经元(更高的 IoU)在神经元处于活动状态时与更高的准确性呈正相关(r=0.31,p<1e-13),且公式长度增长时相关性更强。
- 在自然语言推理中,解释常反映浅层词汇启发式(如性别、重叠),并且矛盾地,更可解释的神经元往往与任务性能呈负相关(r=-0.60,p<1e-08),这表明许多解释捕捉的是虚假的相关性。
- 该方法能够通过瞄准解释性神经元创建“复制粘贴式”的对抗样本,展示在视觉和 NLI 中对模型行为的可预测干扰。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。