Skip to main content
QUICK REVIEW

[论文解读] Weakly-supervised Discriminative Patch Learning via CNN for Fine-grained Recognition.

Yaming Wang, Vlad I. Morariu|arXiv (Cornell University)|Nov 29, 2016
Advanced Neural Network Applications参考文献 29被引用 10
一句话总结

该论文提出了一种弱监督卷积神经网络框架,通过使用非随机初始化和滤波器监督的非对称多流架构,学习结构化的类别特定卷积滤波器组,以检测细粒度识别中的判别性图像块。该方法在CUB-200-2011、Stanford Cars和FGVC-Aircraft数据集上实现了最先进性能,且无需部件或边界框标注。

ABSTRACT

Compared to earlier multistage frameworks using CNN features, recent end-to-end deep approaches for fine-grained recognition essentially enhance the mid-level learning capability of CNNs. Previous approaches achieve this by introducing an auxiliary network to infuse localization information into the main classification network, or a sophisticated feature encoding method to capture higher order feature statistics. We show that mid-level representation learning can be enhanced within the CNN framework, by learning a bank of convolutional filters that capture class-specific discriminative patches without extra part or bounding box annotations. Such a filter bank is well structured, properly initialized and discriminatively learned through a novel asymmetric multi-stream architecture with convolutional filter supervision and a non-random layer initialization. Experimental results show that our approach achieves state-of-the-art on three publicly available fine-grained recognition datasets (CUB-200-2011, Stanford Cars and FGVC-Aircraft). Ablation studies and visualizations are provided to understand our approach.

研究动机与目标

  • 改进卷积神经网络中的中级表征学习,用于细粒度识别,且无需部件或边界框标注。
  • 开发一种结构化的、通过判别性学习获得的滤波器组,以捕捉类别特定的判别性图像块。
  • 通过一种新颖的非对称多流卷积神经网络架构与卷积滤波器监督,提升特征学习能力。
  • 通过非随机层初始化实现端到端训练,以改善收敛性和性能。
  • 在标准细粒度识别基准数据集上实现最先进准确率。

提出的方法

  • 提出一种非对称多流卷积神经网络架构,其中一路学习滤波器以检测判别性图像块,另一路执行分类任务。
  • 使用卷积滤波器监督,引导滤波器学习对类别特定局部模式产生强响应的特征。
  • 采用非随机、结构化的滤波器组初始化方式,以改善优化过程并增强特征的判别能力。
  • 利用滤波器组生成的特征图作为中级表征,以提升分类性能。
  • 使用仅图像级别标签,以弱监督方式端到端训练整个网络。
  • 采用一种新颖的损失函数,促使滤波器在判别性、类别特定的图像块上激活,而无需边界框或部件标注。

实验结果

研究问题

  • RQ1在不依赖部件或边界框标注的前提下,能否改进卷积神经网络中的中级表征学习?
  • RQ2能否有效学习到一种结构化的滤波器组,以检测细粒度识别中的判别性图像块?
  • RQ3与标准卷积神经网络相比,采用滤波器监督的非对称多流架构是否能提升分类性能?
  • RQ4滤波器的非随机初始化对判别性特征学习有何影响?
  • RQ5该方法能否在标准细粒度识别基准数据集上实现最先进性能?

主要发现

  • 所提方法在CUB-200-2011数据集上实现了最先进准确率,优于无需部件或边界框标注的先前方法。
  • 在Stanford Cars数据集上,该模型在弱监督方法中报告了最高准确率,显示出强大的泛化能力。
  • 在FGVC-Aircraft基准上,该方法取得了具有竞争力的性能,证实了其在多样化细粒度类别中的有效性。
  • 消融实验表明,滤波器监督和非随机初始化均显著提升性能。
  • 可视化结果表明,学习到的滤波器能准确定位到判别性部位,如机翼尖端、垂尾和发动机形状,与人工标注的部件位置一致。
  • 该方法在不同数据集间具有良好的泛化能力,表明其对细粒度视觉类别中的领域偏移具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。