QUICK REVIEW

[论文解读] Visual Interpretability for Deep Learning: a Survey

Quanshi Zhang, Song‐Chun Zhu|arXiv (Cornell University)|Feb 2, 2018

Explainable Artificial Intelligence (XAI)参考文献 31被引用 32

一句话总结

本综述回顾了通过可视化中间表征、诊断特征空间、解耦复杂模式以及实现人机协同学习等方法，提升深度学习（尤其是卷积神经网络，CNN）视觉可解释性的研究。结果表明，可解释且解耦的表征显著提升了模型的可信度，减少了标注需求，并支持语义级调试与知识迁移。

ABSTRACT

This paper reviews recent studies in understanding neural-network representations and learning neural networks with interpretable/disentangled middle-layer representations. Although deep neural networks have exhibited superior performance in various tasks, the interpretability is always the Achilles' heel of deep neural networks. At present, deep neural networks obtain high discrimination power at the cost of low interpretability of their black-box representations. We believe that high model interpretability may help people to break several bottlenecks of deep learning, e.g., learning from very few annotations, learning via human-computer communications at the semantic level, and semantically debugging network representations. We focus on convolutional neural networks (CNNs), and we revisit the visualization of CNN representations, methods of diagnosing representations of pre-trained CNNs, approaches for disentangling pre-trained CNN representations, learning of CNNs with disentangled representations, and middle-to-end learning based on model interpretability. Finally, we discuss prospective trends in explainable artificial intelligence.

研究动机与目标

解决深度神经网络（尤其是CNN）中存在的可解释性严重不足问题，尽管其性能优异，但其仍被视为黑箱。
通过实现对网络表征的语义级理解，突破少样本学习、人机交互和模型调试中的瓶颈。
推动可解释且解耦表征的发展，以支持知识迁移和弱监督学习。
探索交互式学习范式，利用人类反馈引导模型优化，仅需极少标注。
通过将视觉可解释性与符号推理及结构化知识表征相联系，为未来可解释人工智能奠定基础。

提出的方法

使用基于梯度的可视化方法，生成能最大化特定神经元或滤波器激活的输入图像，适用于预训练的CNN。
应用反卷积网络将特征图反向映射回像素空间，重建与中间表征相对应的输入模式。
采用带有特征图先验的对抗生成网络，合成语义上合理的可视化结果。
准确估计神经元的感受野，以映射其空间敏感性，超越理论滤波器尺寸的预测。
应用基于注意力的方法，利用类别无关特征和注意力图，定位并解释物体部件。
实现主动问答框架，模型选择未被解释的物体并向人类提问以优化部件模板，使用AOGs（面向装配的图）进行结构化表征。

实验结果

研究问题

RQ1如何可视化CNN的中间表征，以揭示单个滤波器所编码的视觉模式？
RQ2存在哪些方法可用于诊断CNN特征空间中的缺陷或偏差，例如对虚假上下文线索的依赖？
RQ3CNN滤波器中复杂的混合表征在多大程度上可被解耦为可解释且语义明确的组成部分？
RQ4在语义层面实现人机协同交互，如何在仅使用极少标注的情况下加速学习？
RQ5解耦且可解释的表征是否能实现CNN中高效、弱监督的端到端学习？

主要发现

基于梯度和反卷积的方法能有效可视化神经元级别的模式，直观揭示单个单元所检测的特征。
准确的感受野估计表明，实际神经元敏感性小于理论预测值，从而更准确地解释空间注意力机制。
结合人类反馈的主动问答机制，仅需基线方法1/6至1/3的标注量，即可实现部件定位，且性能相当或更优。
通过人类反馈交互式修剪挖掘出的潜在模式，可显著提升部件定位的准确性，有效去除语义无关的成分。
以AOGs编码的解耦表征支持对物体部件的结构化、符号化建模，实现知识迁移与语义级调试。
具备解耦滤波器、能表征特定物体部件的可解释CNN，显著提升了模型透明度，并支持弱监督学习与人机引导学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。