[论文解读] Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet
BagNets 使用来自小补丁的线性局部特征袋来对图像进行分类,在 ImageNet 上实现强劲的准确性,并通过每个图像区域的证据热图实现对类别的直观解释。
Deep Neural Networks (DNNs) excel on many complex perceptual tasks but it has proven notoriously difficult to understand how they reach their decisions. We here introduce a high-performance DNN architecture on ImageNet whose decisions are considerably easier to explain. Our model, a simple variant of the ResNet-50 architecture called BagNet, classifies an image based on the occurrences of small local image features without taking into account their spatial ordering. This strategy is closely related to the bag-of-feature (BoF) models popular before the onset of deep learning and reaches a surprisingly high accuracy on ImageNet (87.6% top-5 for 33 x 33 px features and Alexnet performance for 17 x 17 px features). The constraint on local features makes it straight-forward to analyse how exactly each part of the image influences the classification. Furthermore, the BagNets behave similar to state-of-the art deep neural networks such as VGG-16, ResNet-152 or DenseNet-169 in terms of feature sensitivity, error distribution and interactions between image parts. This suggests that the improvements of DNNs over previous bag-of-feature classifiers in the last few years is mostly achieved by better fine-tuning rather than by qualitatively different decision strategies.
研究动机与目标
- 在通过减少对复杂的空间层次结构的依赖来证明在 ImageNet 中需要可解释的深度神经网络的必要性。
- 将 BagNet 作为一个基于小图像补丁的线性局部特征袋模型引入。
- 证明使用小补丁和线性聚合也能实现高准确性。
- 提供可解释的证据映射,展示局部补丁如何影响决策。
提出的方法
- 通过用 1x1 卷积替换大部分 3x3 卷积来构建 BagNet-q,使顶层感受野限制在 q x q 像素。
- 提取大小为 q x q 的补丁特征,并应用线性分类器以获得每个补丁的类别证据(对数几率)。
- 在空间上对补丁级证据求平均,生成图像级对数几率。
- 在 q ∈ {9, 17, 33} 的情况下对 ImageNet 训练 BagNets,并与标准 CNNs 进行比较。
- 分析热图和补丁级证据,以解释决策并与 DNNs 的行为进行比较。
实验结果
研究问题
- RQ1一个线性局部特征袋模型是否能在使用小补丁的情况下达到有竞争力的 ImageNet 准确率?
- RQ2通过补丁级证据热图,这样的模型的决策有多可解释?
- RQ3与 BagNets 相比,标准 DNN 在局部特征与空间关系的依赖程度有多大差异?
- RQ4BagNets 和现代 DNN 的决策过程在特征敏感性和图像部件之间的相互作用方面是否相似?
主要发现
- 使用 17x17 补丁的 BagNets 达到 80.5% 的前五名准确率;33x33 补丁在 ImageNet 上达到 87.6% 的前五名。
- BagNets 以约 155 张图片/秒的速度处理图像(q ∈ {9,17,33}),相比之下 ResNet-50 约为 570 张图片/秒。
- 热图显示驱动给定类别的小补丁,信息丰富的区域通常对应对象形状或显著特征。
- BagNets 之间的图像部件之间的相互作用较弱,且对 q 像素以上的分离补丁在空间布局上的不变性较高。
- BagNets 的补丁级证据与其他 DNN 的归因信号相关;更深的网络表现出更强的非线性相互作用,并对小的局部掩码的敏感性降低。
- 为计算机视觉管线中的可解释性和失败分析提供指南。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。