QUICK REVIEW

[论文解读] Three-branch and Mutil-scale learning for Fine-grained Image Recognition (TBMSL-Net)

Fan Zhang, Guisheng Zhai|arXiv (Cornell University)|Mar 20, 2020

Advanced Neural Network Applications参考文献 11被引用 16

一句话总结

该论文提出TBMSL-Net，一种用于细粒度图像识别的多分支、多尺度学习框架，通过注意力目标定位模块（AOLM）和注意力部件提议模块（APPM）在无标注的情况下生成以目标为中心和部件特定的区域。该方法通过端到端可训练的网络，利用原始图像、目标裁剪图像和部件裁剪图像三种图像类型进行训练，在CUB-200-2011、FGVC-Aircraft和Stanford Cars数据集上实现了最先进性能，并具备快速推理能力。

ABSTRACT

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is one of the most authoritative academic competitions in the field of Computer Vision (CV) in recent years. But applying ILSVRC's annual champion directly to fine-grained visual categorization (FGVC) tasks does not achieve good performance. To FGVC tasks, the small inter-class variations and the large intra-class variations make it a challenging problem. Our attention object location module (AOLM) can predict the position of the object and attention part proposal module (APPM) can propose informative part regions without the need of bounding-box or part annotations. The obtained object images not only contain almost the entire structure of the object, but also contains more details, part images have many different scales and more fine-grained features, and the raw images contain the complete object. The three kinds of training images are supervised by our multi-branch network. Therefore, our multi-branch and multi-scale learning network(MMAL-Net) has good classification ability and robustness for images of different scales. Our approach can be trained end-to-end, while provides short inference time. Through the comprehensive experiments demonstrate that our approach can achieves state-of-the-art results on CUB-200-2011, FGVC-Aircraft and Stanford Cars datasets. Our code will be available at this https URL

研究动机与目标

为解决细粒度视觉分类（FGVC）中的挑战，即类间差异小、类内差异大，导致性能受限。
通过端到端学习目标与部件位置，消除对边界框或部件标注的依赖。
通过在原始图像、目标图像和部件图像上进行多尺度与多分支训练，提升模型鲁棒性与特征丰富度。
在最小监督设置下实现标准FGVC基准上的最先进性能，并具备快速推理能力。

提出的方法

注意力目标定位模块（AOLM）在无需边界框标注的情况下预测图像中目标的空间位置。
注意力部件提议模块（APPM）在无需部件级别标注的情况下生成有信息量的部件区域提议，聚焦于判别性局部特征。
使用三种不同的图像类型——原始图像、目标裁剪图像和部件裁剪图像——作为多分支网络的输入，实现联合训练。
多分支与多尺度学习网络（MMAL-Net）在不同分支间融合特征，以提升分类准确率与尺度不变性。
整个网络采用端到端训练，实现在不同监督水平下的高效且有效的特征学习。
该框架专为快速推理设计，适用于实际部署。

实验结果

研究问题

RQ1在细粒度识别中，一个端到端可训练的网络是否能够在无需边界框或部件标注的情况下定位目标与部件？
RQ2多分支、多尺度学习在具有高类内差异的细粒度数据集上如何提升性能？
RQ3与仅使用原始图像相比，目标裁剪图像和部件裁剪图像对分类准确率的贡献如何？
RQ4在零样本或弱监督FGVC设置下，基于注意力的模块是否能够超越传统区域提议方法？
RQ5所提出方法在标准FGVC基准上与最先进模型相比表现如何？

主要发现

所提出的TBMSL-Net在CUB-200-2011数据集上实现了最先进性能，且未使用部件标注即超越了先前方法。
在FGVC-Aircraft数据集上，该模型展现出对具有细粒度差异的多样化飞机类别强大的泛化能力与鲁棒性。
Stanford Cars基准的结果证实了该模型在处理细微差异的细粒度视觉类别方面的有效性。
消融实验表明，通过多分支学习结合原始图像、目标图像与部件图像，显著提升了准确率，优于单分支基线模型。
该模型实现了快速推理时间，表明尽管采用多分支架构，仍适用于实时应用。
代码将公开发布，以支持可复现性，并推动弱监督细粒度识别领域的进一步研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。