[论文解读] See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification
本论文提出 WS-DAN,利用弱监督的注意力地图来引导数据增强(注意力裁剪和丢弃)并定位/细化对象,在 FGVC 领域达到最先进的结果。
Data augmentation is usually adopted to increase the amount of training data, prevent overfitting and improve the performance of deep models. However, in practice, random data augmentation, such as random image cropping, is low-efficiency and might introduce many uncontrolled background noises. In this paper, we propose Weakly Supervised Data Augmentation Network (WS-DAN) to explore the potential of data augmentation. Specifically, for each training image, we first generate attention maps to represent the object's discriminative parts by weakly supervised learning. Next, we augment the image guided by these attention maps, including attention cropping and attention dropping. The proposed WS-DAN improves the classification accuracy in two folds. In the first stage, images can be seen better since more discriminative parts' features will be extracted. In the second stage, attention regions provide accurate location of object, which ensures our model to look at the object closer and further improve the performance. Comprehensive experiments in common fine-grained visual classification datasets show that our WS-DAN surpasses the state-of-the-art methods, which demonstrates its effectiveness.
研究动机与目标
- 利用空间对象信息在不需要详细标注的情况下提高数据增强的效率的动机。
- 开发一个框架,从图像级标签学习注意力地图,并将其用于增强和定位。
- 将注意力引导的增强与一个双线性注意力池化机制相结合,以提取辨别性部件特征。
- 证明注意力裁剪和丢弃在 FGVC 基准测试上能同时改善特征表示与定位准确性。
提出的方法
- 使用弱监督学习从 CNN 特征图生成注意力地图。
- 应用 Bilinear Attention Pooling 从注意力地图提取基于部件的特征(P = Γ(A, F))。
- 施加注意力正则化使部件特征对齐到学习的中心(L_A)。
- 执行注意力引导的数据增强:注意力裁剪(对辨别性部位进行放大)和注意力丢弃(抹去部件以促使探索)。
- 在测试阶段通过聚合注意力地图形成对象地图并放大以实现从粗到细的预测,定位并细化对象区域。
实验结果
研究问题
- RQ1弱监督注意力学习是否能在不含边界框标注的情况下产生可靠的辨别性部件?
- RQ2注意力引导的增强技术(裁剪和丢弃)是否在 FGVC 中优于随机增强?
- RQ3能否通过注意力地图实现显式的对象定位与 refinement 提升最终的细粒度视觉分类准确性?
- RQ4增加注意力地图数量如何影响 FGVC 的性能?
主要发现
- WS-DAN 在四个 FGVC 数据集上达到最先进的准确率:CUB-200-2011(89.4%)、FGVC-Aircraft(94.5%)、Stanford Cars(92.2%)、Stanford Dogs(93.0%)。
- 注意力引导的增强在分类准确率和定位质量(mIoU)方面均优于随机增强。
- 使用多张注意力地图(多达 32 张以上)可以获得更高的准确率,并在 CUB-200-2011 上稳定在约 89.4% 左右。
- 在 CUB-200-2011 和 Stanford Dogs 的对象定位误差率显著低于以往方法,分别为 18.3% 和 19.2%。
- 注意力裁剪和丢弃对准确度提升有累计贡献(例如在将所有组件结合时从 83.7% 提升到 89.4% 的 CUB-200-2011)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。