[论文解读] Part Detector Discovery in Deep Convolutional Neural Networks
本文提出部件检测器发现(Part Detector Discovery, PDD),一种无需微调即可自动发现并定位细粒度分类中物体部件的方法,利用预训练的ImageNet深度卷积神经网络。通过分析预训练ImageNet网络的梯度图,并将激活中心与标注的部件或边界框关联,PDD在几乎不增加额外计算量的情况下实现鲁棒的部件检测与分类,在CUB-200-2011数据集上达到62.5%的准确率——几乎达到使用真实部件位置时的上限62.7%。
Current fine-grained classification approaches often rely on a robust localization of object parts to extract localized feature representations suitable for discrimination. However, part localization is a challenging task due to the large variation of appearance and pose. In this paper, we show how pre-trained convolutional neural networks can be used for robust and efficient object part discovery and localization without the necessity to actually train the network on the current dataset. Our approach called "part detector discovery" (PDD) is based on analyzing the gradient maps of the network outputs and finding activation centers spatially related to annotated semantic parts or bounding boxes. This allows us not just to obtain excellent performance on the CUB200-2011 dataset, but in contrast to previous approaches also to perform detection and bird classification jointly without requiring a given bounding box annotation during testing and ground-truth parts during training. The code is available at http://www.inf-cv.uni-jena.de/part_discovery and https://github.com/cvjena/PartDetectorDisovery.
研究动机与目标
- 探究预训练的深度CNN是否在未在相关数据集(如ImageNet)上训练的情况下,仍隐含检测常见物体部件的能力。
- 开发一种无需训练阶段部件标注或推理阶段边界框标注的方法,以发现并定位物体部件。
- 仅使用预训练模型和最小程度的适应,实现细粒度识别任务中检测与分类的联合处理。
- 通过在训练阶段不使用真实部件标签来学习部件检测器,降低细粒度分类中的标注成本。
提出的方法
- 计算CNN输出通道相对于输入图像像素的梯度图,以识别激活模式。
- 从梯度图中估计激活中心,以定位高响应区域。
- 选择激活中心在空间上最接近标注语义部件或边界框的通道,形成部件检测器。
- 在推理过程中将所选通道用作部件检测器,实现在无需额外训练的情况下实现部件定位。
- 在基于部件的分类框架中应用检测到的部件位置,将部件特征与全局特征结合以提升准确率。
- 通过利用预训练网络的特征层次结构和基于梯度的定位方法,在开放环境下的完整图像上实现检测与分类。
实验结果
研究问题
- RQ1在ImageNet上预训练的深度CNN是否能隐式检测到与细粒度识别任务相关的常见物体部件?
- RQ2能否在不进行微调或训练阶段使用部件标注的情况下,在预训练CNN中发现部件检测器?
- RQ3所提出的方法是否在推理阶段无需真实边界框的情况下,仍能实现高精度的部件定位与分类性能?
- RQ4与依赖真实部件或边界框标注的最先进方法相比,该方法的性能如何?
主要发现
- 所提出的PDD方法在CUB-200-2011数据集上实现了62.5%的细粒度分类准确率,是目前无需微调CNN的报告结果中最佳之一。
- 该方法在部件定位误差方面显著优于先前工作,尤其在鸟喙和喉部等部件上较[26]提升了2倍。
- 在测试阶段不使用真实边界框的开放设置下,方法达到了60.1%的准确率——仅比受限设置低2.4%,且距离使用真实部件位置的上限仅差0.2%。
- 即使在训练阶段未使用任何真实部件标注,该方法在准确率上仍比仅使用全局CNN特征的基线方法高出10%以上。
- 该系统无需直接监督即可区分鸟类的不同身体部位(如喙、尾羽、翅膀),表明预训练网络编码了有意义的部件特异性特征。
- 该方法在计算开销极低的情况下实现检测与分类的联合处理,因为部件检测在初始梯度分析和通道选择后基本无需额外计算。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。