[论文解读] Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
Mask-CNN 引入一个端到端的四流CNN,利用 FCN 预测的对象/部位掩码来选择并池化深度描述符用于细粒度识别,在 CUB-200-2011 上以紧凑模型达到最先进的准确率。
Fine-grained image recognition is a challenging computer vision problem, due to the small inter-class variations caused by highly similar subordinate categories, and the large intra-class variations in poses, scales and rotations. In this paper, we propose a novel end-to-end Mask-CNN model without the fully connected layers for fine-grained recognition. Based on the part annotations of fine-grained images, the proposed model consists of a fully convolutional network to both locate the discriminative parts (e.g., head and torso), and more importantly generate object/part masks for selecting useful and meaningful convolutional descriptors. After that, a four-stream Mask-CNN model is built for aggregating the selected object- and part-level descriptors simultaneously. The proposed Mask-CNN model has the smallest number of parameters, lowest feature dimensionality and highest recognition accuracy when compared with state-of-the-arts fine-grained approaches.
研究动机与目标
- 激发需要区分细微类间差异的细粒度识别的动机。
- 提出一个端到端的 Mask-CNN,去除了全连接层,使用基于部件的掩码来选择描述符。
- 利用四流架构(图像、头部、躯干、对象)来联合建模对象级与部件级信息。
- 展示在 CUB-200-2011 上与最先进方法相比具备高准确性和高效率。
提出的方法
- 使用 FCN 从部件注释生成对象/部位掩码,将部件定位作为三类分割任务。
- 舍弃全连接层,保留卷积层,以在每个空间位置获得 512 维深层描述符。
- 将头部/躯干/对象掩码调整为 7x7,并作为二进制选择器应用,只保留与对象相关的描述符。
- 通过对选定描述符进行平均池化和最大池化来计算每个流的特征,随后进行 L2 归一化。
- 将四个 1024-d 的特征(在池化与归一化后)拼接成每个流的 4096-d 表示,并端到端训练一个 200 级分类器。
- 可选地通过从 relu5_2 提取激活在 pool5 之外并结合,得到 8192-d 表示,并使用 SVD whitening 降至 4096-d。
实验结果
研究问题
- RQ1通过 FCN 掩码进行部位定位是否可以在测试时无监督的情况下实现有效的描述符选择以进行细粒度识别?
- RQ2四流架构(图像、头部、躯干、对象)是否在 CUB-200-2011 上优于单流或部分监督的基线?
- RQ3描述符选择相对于标准池化对识别精度有何影响?
- RQ4与最先进的方法相比,Mask-CNN 在模型大小和特征维度方面的表现如何?
主要发现
- 在 224x224 输入和 4-stream M-CNN(流内无 FC)的情况下达到 83.1% 的准确率。
- 对于所有流,采用 448x448 输入可提高到 85.2%;在将 pool5 与 relu5_2 特征结合时,4-stream M-CNN +(448)达到 85.4%。
- 经 SVD whitening 降至 4096-d,准确率达到 85.5%。
- 头部定位:84.62% PCP;躯干定位:89.83% PCP(采用 50% IOU 阈值)。
- 对象分割平均 IU:72.41%。
- 四流 M-CNN 的参数更少、特征维数低于竞争方法(例如,四流 M-CNN + 为 60.49M 参数,8,192-d 特征;AlexNet 变体为 9.74M 参数和 2,048-d 特征)。
- 在 CUB-200-2011 上,Mask-CNN 实现 85.5% 的分类准确率,高于不需要测试时边界框或部件的方法的 prior state-of-the-art。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。