QUICK REVIEW

[论文解读] Re-rank Coarse Classification with Local Region Enhanced Features for Fine-Grained Image Recognition

Shaokang Yang, Shuai Liu|arXiv (Cornell University)|Feb 19, 2021

Advanced Neural Network Applications参考文献 41被引用 30

一句话总结

本文提出 CCFR，一种自粗到细的基于检索的框架，利用弱监督学习得到的局部增强特征和多层全局特征损失，对前N 个粗分类进行再排序，在 FGVC 基准数据集上达到最新的最好结果。

ABSTRACT

Fine-grained image recognition is very challenging due to the difficulty of capturing both semantic global features and discriminative local features. Meanwhile, these two features are not easy to be integrated, which are even conflicting when used simultaneously. In this paper, a retrieval-based coarse-to-fine framework is proposed, where we re-rank the TopN classification results by using the local region enhanced embedding features to improve the Top1 accuracy (based on the observation that the correct category usually resides in TopN results). To obtain the discriminative regions for distinguishing the fine-grained images, we introduce a weakly-supervised method to train a box generating branch with only image-level labels. In addition, to learn more effective semantic global features, we design a multi-level loss over an automatically constructed hierarchical category structure. Experimental results show that our method achieves state-of-the-art performance on three benchmarks: CUB-200-2011, Stanford Cars, and FGVC Aircraft. Also, visualizations and analysis are provided for better understanding.

研究动机与目标

在 FGVC 中激发并解决将全局语义特征与判别性局部线索结合的挑战。
提出一个两分支的 CCFR 架构，在不需要部件注释的情况下学习局部区域特征，并将其与全局特征结合。
利用弱监督的局部区域定位，使用带有 triplet loss 的 FPN（Feature Pyramid Network）和尺度分离的 NMS 融合网络。
使用无监督的分层类别结构来训练多层损失，以获得更好的全局特征表示。
在 CUB-200-2011、FGVC Aircraft 和 Stanford Cars 上展示最先进的性能，并给出分析与消融。

提出的方法

两分支的 CCFR 框架，其中上分支学习判别性的局部区域并构建检索数据库，下分支获得前-N 粗分类并利用检索结果对它们进行再排序。
使用带尺度分离的 NMS 的特征金字塔网络与 triplet loss 的弱监督局部区域定位，以偏好判别部位而非整对象区域。
融合网络连接多尺度局部区域特征并应用 1x1 卷积以产生与全局特征对齐的增强局部嵌入。
通过特征聚类自动构建分层类别结构并对子类与上级类别应用 softmax 损失，再加上一个一致性约束来学习全局特征的多层损失。
基于检索的再排序，利用查询嵌入与训练数据库中局部增强特征之间的余弦相似度来调整前-N softmax 分数并提高 Top-1 精度。

实验结果

研究问题

RQ1检索式再排序管道是否可以在不需要昂贵部件注释的前提下，通过利用判别性局部区域来提升细粒度识别？
RQ2基于自动构建的分层类别结构的多层损失是否能够提升 FGVC 的全局特征表示？
RQ3尺度分离的 NMS 与融合网络对有效聚合局部区域信息的影响如何？
RQ4再排序参数（topN、topM、阈值设置）对不同 FGVC 基准的最终 Top-1 精度有何影响？

主要发现

CCFR 在 CUB-200-2011 (91.1%)、FGVC Aircraft (94.1%)、Stanford Cars (95.49%) 上实现了基于 ResNet-50 的最新 Top-1 精度。
通过 triplet loss 和尺度分离 NMS 引入局部区域特征，在与再排序结合时，CUB 基线从 84.5% 提升到 90.7%，Cars 提升到 95.49%。
用于 backbone 预训练的多层损失将 Top-1 精度提升了 0.7%。
尺度分离的 NMS 相对于传统 NMS 对 Top-1 精度的提升较小（从 90.3% 提升至 90.4%）。
用于将局部区域特征进行融合的 Fusion Network 相对于简单拼接局部特征进一步带来提升（90.7% vs 90.4%）。
在前提是前置 softmax 概率不再自信时再排序的效用最大；最佳设置大致为 topn=2，T_sf≈0.75，T_sc≈0.7。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。