QUICK REVIEW

[论文解读] A Taxonomy and Library for Visualizing Learned Features in Convolutional Neural Networks

Felix Grün, Christian Rupprecht|arXiv (Cornell University)|Jun 24, 2016

Explainable Artificial Intelligence (XAI)参考文献 21被引用 52

一句话总结

本文提出了一种用于可视化卷积神经网络（CNNs）特征的三类分类法：输入修改、反卷积和输入重建方法。它引入了FeatureVis，一个针对MatConvNet的开源MATLAB库，实现了最先进的可视化技术，使研究人员能够更清晰、可复现地解释学习到的特征，分析网络行为，并比较不同网络架构。

ABSTRACT

Over the last decade, Convolutional Neural Networks (CNN) saw a tremendous surge in performance. However, understanding what a network has learned still proves to be a challenging task. To remedy this unsatisfactory situation, a number of groups have recently proposed different methods to visualize the learned models. In this work we suggest a general taxonomy to classify and compare these methods, subdividing the literature into three main categories and providing researchers with a terminology to base their works on. Furthermore, we introduce the FeatureVis library for MatConvNet: an extendable, easy to use open source library for visualizing CNNs. It contains implementations from each of the three main classes of visualization methods and serves as a useful tool for an enhanced understanding of the features learned by intermediate layers, as well as for the analysis of why a network might fail for certain examples.

研究动机与目标

为解决理解CNN学习内容的挑战，将现有可视化方法组织成一个连贯的框架。
为特征可视化技术提供标准化术语与分类体系，以改善研究社区内的交流与比较。
开发一个易于使用、开源的库（FeatureVis），集成多种可视化方法，适用于基于MatConvNet的CNN。
使研究人员能够分析中间层特征，诊断模型失败原因，并以可视化方式比较网络架构。
通过使可视化技术与损失层无关，支持图像分类之外的多样化深度学习任务，如回归与分割。

提出的方法

提出三类分类法：输入修改（例如，遮挡）、反卷积（例如，引导反向传播）和输入重建（例如，基于梯度的优化）。
将FeatureVis库实现为MatConvNet的扩展，无需额外配置即可支持多种CNN架构与层类型。
支持多种反卷积技术：Deconvnet、反向传播与引导反向传播，用于ReLU激活的传播。
集成两种卷积层传播方法：反向传播与显著性传播，用于特征归因。
通过用户自定义颜色或随机像素块实现可配置的遮挡，以减少均匀遮挡带来的伪影。
支持可配置Lp范数与总变差正则化的基于梯度的输入重建，以控制图像质量与平滑度。

实验结果

研究问题

RQ1如何系统性地对CNN中现有的特征可视化方法进行分类与比较？
RQ2输入修改、反卷积与输入重建可视化方法在定义特征与功能差异上有哪些关键区别？
RQ3统一的开源库在多大程度上能提升深度学习研究中特征可视化的可复现性与可及性？
RQ4不同可视化技术如何揭示特征对不同网络架构中网络预测的贡献？
RQ5可视化技术能否有效应用于图像分类之外的任务，如基于回归的任务（例如深度估计或姿态估计）？

主要发现

所提出的分类法成功地基于其底层机制与目标，将现有特征可视化方法归类为三个截然不同且有意义的类别。
FeatureVis使不同网络之间的可视化输出可直接比较，结果表明较低的top-1错误率（例如，ResNet-101为23.4%）与更清晰、更集中的特征图相关。
引导反向传播在生成与分类相关输入特征的可视化方面表现最佳，优于标准反卷积与遮挡方法。
使用随机像素块进行遮挡可减少由均匀灰色块引起的伪影，提升显著性图的可靠性。
由于其与损失无关的设计，该库支持图像分类之外的多样化任务，包括语义分割与深度预测。
通过Lp范数与总变差正则化的梯度下降实现的输入重建，能够生成高质量、可解释的输入特征重构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。