Skip to main content
QUICK REVIEW

[论文解读] Interpreting Deep Visual Representations via Network Dissection

Bolei Zhou, David Bau|arXiv (Cornell University)|Nov 15, 2017
Explainable Artificial Intelligence (XAI)参考文献 9被引用 45
一句话总结

本文提出网络解剖法(Network Dissection),通过将单个隐藏单元与有意义的视觉概念(如物体、纹理和颜色)进行定量标注,实现对深度卷积神经网络的解释。通过将单元激活与密集标注数据集(Broden)对齐,该方法揭示深度表征的可解释性显著高于随机基,且可解释性在不同网络架构、训练方式和超参数设置下存在差异。

ABSTRACT

The success of recent deep convolutional neural networks (CNNs) depends on learning hidden representations that can summarize the important factors of variation behind the data. However, CNNs often criticized as being black boxes that lack interpretability, since they have millions of unexplained model parameters. In this work, we describe Network Dissection, a method that interprets networks by providing labels for the units of their deep visual representations. The proposed method quantifies the interpretability of CNN representations by evaluating the alignment between individual hidden units and a set of visual semantic concepts. By identifying the best alignments, units are given human interpretable labels across a range of objects, parts, scenes, textures, materials, and colors. The method reveals that deep representations are more transparent and interpretable than expected: we find that representations are significantly more interpretable than they would be under a random equivalently powerful basis. We apply the method to interpret and compare the latent representations of various network architectures trained to solve different supervised and self-supervised training tasks. We then examine factors affecting the network interpretability such as the number of the training iterations, regularizations, different initializations, and the network depth and width. Finally we show that the interpreted units can be used to provide explicit explanations of a prediction given by a CNN for an image. Our results highlight that interpretability is an important property of deep neural networks that provides new insights into their hierarchical structure.

研究动机与目标

  • 开发一种可扩展的、定量的深度卷积神经网络单元解释方法。
  • 衡量并比较不同网络架构和训练设置下深度视觉表征的可解释性。
  • 探究在无显式监督的情况下,解耦的、语义上有意义的表征在深度网络中是否以及如何出现。
  • 评估训练动态、正则化方法以及网络深度/宽度对学习特征可解释性的影响。
  • 证明经解释的单元可为单个CNN预测提供明确且局部化的解释。

提出的方法

  • 使用大规模、密集标注的数据集(Broden)来定义单元解释的视觉语义概念。
  • 通过Broden中单元激活图与概念掩码之间的交并比(IoU)来量化单元的可解释性。
  • 应用阈值τ以识别对特定概念产生选择性响应的单元,更严格的阈值可揭示更精细的选择性。
  • 基于所有Broden概念中的最大IoU,为每个单元识别最佳匹配的概念。
  • 可视化单元激活图,并将其与真实概念掩码叠加,以验证对齐效果。
  • 利用解释后的单元生成显著性图,通过突出贡献的概念来解释单个预测。

实验结果

研究问题

  • RQ1深度CNN中的单个隐藏单元在多大程度上对应于可解释的视觉概念(如物体、纹理或颜色)?
  • RQ2不同网络架构(如AlexNet、ResNet)和训练任务(如ImageNet、Places)下,深度表征的可解释性如何变化?
  • RQ3训练超参数(如权重衰减、Dropout、批量归一化,以及训练深度/宽度)如何影响可解释单元的出现?
  • RQ4经解释的单元能否用于生成忠实且局部化的单个CNN预测解释?
  • RQ5可解释性是深度表征的内在属性,还是对数据和优化选择敏感?

主要发现

  • 网络解剖法在多个架构中成功识别出可解释的单元,这些单元可检测到如'马'、'绘画'、'人'和'河流'等特定概念。
  • 可解释性具有轴对齐特性:旋转特征空间会破坏可解释性,但不会影响分类准确率。
  • 更严格的阈值(τ = 0.005)可揭示更精细的概念选择性,而较宽松的阈值则导致'棕色颜色'或'纹理'等通用概念。
  • 正则化技术(如Dropout和批量归一化)会减少可解释单元的数量,表明鲁棒性与可解释性之间存在权衡。
  • 该方法发现中间层包含最多的可解释单元,而深层则表现出更多任务特定、语义泛化能力较弱的检测器。
  • 经解释的单元可用于生成局部化、基于概念的预测解释:正确预测由相关检测器解释,而误分类则由虚假或错误的检测器激活解释。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。