[论文解读] Fisher Kernel for Deep Neural Activations
该论文提出了一种多尺度金字塔池化(MPP)框架,通过使用带尺度归一化的改进Fisher核来增强预训练CNN的深层激活。通过将全连接层替换为等效的卷积层以提取密集的多尺度激活,并利用归一化Fisher核进行聚合,该方法在MIT Indoor 67上实现了+17.76%的准确率提升,在PASCAL VOC 2007上实现了+7.18 mAP的性能增益,显著优于基线CNN特征和VLAD表示方法。
Compared to image representation based on low-level local descriptors, deep neural activations of Convolutional Neural Networks (CNNs) are richer in mid-level representation, but poorer in geometric invariance properties. In this paper, we present a straightforward framework for better image representation by combining the two approaches. To take advantages of both representations, we propose an efficient method to extract a fair amount of multi-scale dense local activations from a pre-trained CNN. We then aggregate the activations by Fisher kernel framework, which has been modified with a simple scale-wise normalization essential to make it suitable for CNN activations. Replacing the direct use of a single activation vector with our representation demonstrates significant performance improvements: +17.76 (Acc.) on MIT Indoor 67 and +7.18 (mAP) on PASCAL VOC 2007. The results suggest that our proposal can be used as a primary image representation for better performances in visual recognition tasks.
研究动机与目标
- 提升深度CNN激活在视觉识别任务中的几何不变性与判别能力。
- 结合低层次局部描述子(不变性)与中层次CNN特征(丰富表征)的优势。
- 开发一种高效方法,从预训练CNN中提取多尺度密集激活,且无需微调。
- 仅使用类别级别标注即可实现弱监督对象置信度图生成。
- 证明带尺度归一化的Fisher核在CNN特征上的表现优于VLAD和平均池化方法。
提出的方法
- 将预训练CNN的前两个全连接层替换为等效的卷积层,以生成密集的多尺度特征图。
- 通过分尺度归一化后接Fisher核编码的方式实现多尺度金字塔池化(MPP)的局部激活块处理。
- 利用分尺度归一化稳定不同感受野大小下的Fisher核计算。
- 使用线性SVM将局部Fisher编码特征聚合为全局图像表征以用于分类。
- 通过追踪每个局部激活块对应的SVM权重生成对象置信度图,实现弱监督定位。
- 仅使用图像级别标签训练最终分类器,避免使用边界框标注。
实验结果
研究问题
- RQ1带分尺度归一化的Fisher核编码能否提升CNN激活的判别能力?
- RQ2对密集CNN特征进行多尺度池化是否在几何不变性与准确率方面优于平均池化或VLAD编码?
- RQ3能否仅使用类别级别标签从CNN特征可靠地生成对象置信度图?
- RQ4所提方法在场景与物体识别基准上的表现与当前最先进方法相比如何?
- RQ5分尺度归一化对Fisher核在CNN激活上的性能有何影响?
主要发现
- 所提出的MPP+Fisher核方法在MIT Indoor 67上达到91.28%的top-1准确率,相比基线Alex-FC7提升了+17.76%。
- 在PASCAL VOC 2007上,该方法使用CSF基线达到89.35%的mAP,使用MPP时准确率达到91.28%,优于先前最先进方法。
- 该方法在PASCAL VOC 2007上的mAP相比基线提升了+7.18,表现出强大的泛化能力。
- 从该表征生成的对象置信度图在仅使用类别级别标签进行训练的情况下,仍展现出高定位精度。
- 分尺度归一化至关重要:若无此步骤,即使使用相同的池化机制,Fisher核性能也会显著下降。
- 该方法优于平均池化和基于VLAD的聚合方式,表明归一化Fisher核在多尺度CNN特征上的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。