[论文解读] Interpreting CNN Knowledge via an Explanatory Graph
本文提出一种无监督方法,用于从预训练CNN的特征图中学习一个解释性图,将对象部件模式解耦,每个部件表示为一个节点,并通过边编码共激活关系与空间关系。该方法在无需部件标注的情况下实现了最先进的部件定位性能,通过从CNN特征图中学习稳定且可迁移的部件检测器,超越了监督基线方法。
This paper learns a graphical model, namely an explanatory graph, which reveals the knowledge hierarchy hidden inside a pre-trained CNN. Considering that each filter in a conv-layer of a pre-trained CNN usually represents a mixture of object parts, we propose a simple yet efficient method to automatically disentangles different part patterns from each filter, and construct an explanatory graph. In the explanatory graph, each node represents a part pattern, and each edge encodes co-activation relationships and spatial relationships between patterns. More importantly, we learn the explanatory graph for a pre-trained CNN in an unsupervised manner, i.e., without a need of annotating object parts. Experiments show that each graph node consistently represents the same object part through different images. We transfer part patterns in the explanatory graph to the task of part localization, and our method significantly outperforms other approaches.
研究动机与目标
- 揭示预训练CNN中隐藏的知识层次结构,特别是中层视觉模式(如对象部件)的组织方式。
- 在无需部件标注的情况下,从单个CNN滤波器的特征图中解耦多个对象部件模式。
- 利用图结构建模跨层部件模式之间的共激活与空间关系。
- 为下游任务(如部件定位)创建可迁移、可解释的CNN知识表示。
- 在完全无监督设置下评估所学习部件模式的可解释性、稳定性和可迁移性。
提出的方法
- 该方法通过分析预训练CNN各卷积层的特征图来学习解释性图,将每个滤波器的输出视为部件模式的混合。
- 应用无监督聚类方法识别每个滤波器特征图中的独立部件模式,并将每个聚类分配给图的一个节点。
- 基于不同输入图像中模式激活的共激活统计量与空间接近度,在相邻层的节点之间建立图边。
- 该方法不将节点位置固定于特定特征图位置,使部件模式可灵活地出现在不同图像位置。
- 利用图节点的激活模式重建图像区域,从而实现所学部件语义的可视化与验证。
- 通过将图节点与部件名称关联,并将其用作部件定位任务中的检测器,评估可迁移性。
实验结果
研究问题
- RQ1如何在无监督条件下自动发现并从单个CNN滤波器的特征图中解耦多个对象部件模式?
- RQ2预训练CNN中编码的知识层次结构是什么样的?如何将其表示为部件模式的图?
- RQ3所学习的部件模式在不同图像和对象实例之间是否稳定且一致?
- RQ4所学习的部件模式是否能有效迁移到下游任务(如部件定位)而无需使用部件标注?
- RQ5无监督部件模式挖掘方法在部件定位任务中的性能与监督方法相比如何?
主要发现
- 解释性图成功从单个滤波器的特征图中解耦出多个部件模式,每个节点在不同图像中一致地表示同一语义部件。
- 在CUB200-2011数据集上,该方法的归一化距离为0.1250,优于监督基线方法supervised-AOG(0.1344)的部件定位性能。
- 在Pascal VOC Part数据集上,该方法达到0.1765的归一化距离,与最佳性能的监督基线方法持平。
- 无监督方法甚至在部件定位任务中超越了部分监督方法,证明了所学模式的强大可迁移性。
- 该方法通过过滤噪声激活并将它们组织为一致的图结构,显著提升了CNN特征表示的稳定性和可解释性。
- 解释性图支持部件模式的可视化与图像区域的重建,证实了所学节点语义的清晰性与一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。