QUICK REVIEW

[论文解读] Understanding Intra-Class Knowledge Inside CNN

Donglai Wei, Bolei Zhou|arXiv (Cornell University)|Jul 9, 2015

Explainable Artificial Intelligence (XAI)参考文献 12被引用 64

一句话总结

本文提出一种数据驱动的图像块先验，以改进卷积神经网络（CNN）的可视化效果，实现全连接层中类内知识的可解释性反演。通过将物体变化建模为空间布局与视觉风格，该方法揭示了CNN如何分层且以集成方式表征类内多样性，从而支持新型应用，如基于风格的图像检索和具备自然色彩一致性的物体补全。

ABSTRACT

Convolutional Neural Network (CNN) has been successful in image recognition tasks, and recent works shed lights on how CNN separates different classes with the learned inter-class knowledge through visualization. In this work, we instead visualize the intra-class knowledge inside CNN to better understand how an object class is represented in the fully-connected layers. To invert the intra-class knowledge into more interpretable images, we propose a non-parametric patch prior upon previous CNN visualization models. With it, we show how different "styles" of templates for an object class are organized by CNN in terms of location and content, and represented in a hierarchical and ensemble way. Moreover, such intra-class knowledge can be used in many interesting applications, e.g. style-based image retrieval and style-based object completion.

研究动机与目标

理解卷积神经网络（CNN）如何在全连接层中表征类内变化，如不同物体风格和空间布局。
解决以往CNN可视化方法产生的颜色分布不自然且无法捕捉集体神经路径表征的局限性。
提出一种非参数化图像块先验，通过利用训练数据库中的自然图像统计特性，改进特征反演与类别可视化。
证明类内知识在全连接层中以分层和集成的方式编码。
将所学习的类内表征应用于实际视觉任务，包括基于风格的图像检索和指定物体风格的图像补全。

提出的方法

基于自然图像块数据库引入一种非参数化图像块先验，用于正则化CNN特征反演与类别可视化，提升视觉真实感。
通过在标准参数化CNN可视化目标中增加图像块先验项，使生成图像更符合自然的颜色与纹理分布。
使用梯度下降优化图像重建损失，同时强制生成图像在图像块级别与ImageNet验证集中的真实图像保持相似性。
将全连接层特征分解为空间与内容两部分，以分析位置特异性与风格特异性变化的编码方式。
通过仅更新掩码区域并结合类特定特征优化与图像块先验，将所学风格表征应用于图像补全。
利用最后一层的梯度幅值识别关键物体部位，实现对象修改任务中的自动定位。

实验结果

研究问题

RQ1CNN如何在全连接层中表征'橙子'或'台球桌'等物体类别中的类内变化？
RQ2为何标准CNN可视化方法会产生颜色分布不自然的图像？如何纠正此问题？
RQ3类内知识（特别是空间布局与视觉风格）在全连接层的神经路径中如何组织？
RQ4所学习的类内表征能否用于生成具有特定风格的真实感图像，或实现风格一致的物体插入补全？
RQ5与先前方法相比，所提出的图像块先验在提升CNN特征可视化的真实感与可解释性方面，改善程度如何？

主要发现

所提出的图像块先验显著提升了视觉质量，在pool 5特征反演中，相对L2重建误差从0.45降低至0.32，优于先前最先进方法。
该方法生成的图像具有更自然的颜色分布与纹理一致性，定性对比显示伪影减少，真实感增强。
CNN以分层和集成的方式编码类内变化，不同组件独立捕捉空间布局与视觉风格。
所学习的类内知识可有效支持基于风格的图像检索与物体补全，不同物体风格可依据语义上下文插入场景中。
通过仅使用掩码与指定风格，成功实现将波斯猫的毛发更改为阿什拉克风格等对象修改任务，展示了自顶向下的语义理解能力。
该方法在前馈架构中具有泛化能力，且在包含5个卷积层与3个全连接层的ImageNet预训练CNN上表现有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。