[论文解读] Multi-label Image Recognition by Recurrently Discovering Attentional Regions
本论文提出一个无提案、端到端框架,通过空间变换器和LSTM学习注意区域,以执行多标签图像识别并捕捉区域依赖。
This paper proposes a novel deep architecture to address multi-label image recognition, a fundamental and practical task towards general visual understanding. Current solutions for this task usually rely on an extra step of extracting hypothesis regions (i.e., region proposals), resulting in redundant computation and sub-optimal performance. In this work, we achieve the interpretable and contextualized multi-label image classification by developing a recurrent memorized-attention module. This module consists of two alternately performed components: i) a spatial transformer layer to locate attentional regions from the convolutional feature maps in a region-proposal-free way and ii) an LSTM (Long-Short Term Memory) sub-network to sequentially predict semantic labeling scores on the located regions while capturing the global dependencies of these regions. The LSTM also output the parameters for computing the spatial transformer. On large-scale benchmarks of multi-label image classification (e.g., MS-COCO and PASCAL VOC 07), our approach demonstrates superior performances over other existing state-of-the-arts in both accuracy and efficiency.
研究动机与目标
- 动机并解决多标签图像识别中假设-区域管线的低效率。
- 开发一个端到端架构,能够在没有外部提案的情况下自动发现语义意义明确的注意区域。
- 捕获被注意区域之间的长距离上下文依赖,以提高标注准确性。
- 提供约束以引导空间变换器定位,从而获得更具解释性的区域。
- 在 VOC 2007 和 MS-COCO 上展示最先进的性能并提升效率。
提出的方法
- 在 CNN 中嵌入一个空间变换层,以在卷积特征图上定位注意区域,无需区域提案。
- 使用一个 LSTM 依次预测每个被关注区域的标签分数,并输出下一步的定位参数。
- 迭代地关注 K 个区域,通过按类别的最大池化融合区域分数以获得最终标签分数。
- 对多标签分类应用类别级的欧氏损失。
- 引入三个定位约束(anchor、scale、positive)以丰富区域、多样化大小并避免镜像,并结合定位损失。
- 使用 Adam 优化器进行端到端训练,综合损失为 L = L_cls + gamma * L_loc。
实验结果
研究问题
- RQ1无提案注意机制是否能够定位用于多标签分类的判别区域?
- RQ2由空间变换器发现的注意区域,结合记忆增强的区域编码,是否比基于提案的方法在准确性和效率上都更优?
- RQ3定位约束是否会带来更丰富、适当尺度且非镜像的注意区域,从而提升性能?
- RQ4多尺度/多视图测试如何影响 VOC 2007 和 MS-COCO 的性能?
- RQ5使用注意区域与对象提案对识别性能的影响是什么?
主要发现
| 方法 | aero | bike | bird | boat | bottle | bus | car | cat | chair | cow | table | dog | horse | mbike | person | plant | sheep | sofa | train | tv | mAP |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CNN-SVM | 88.5 | 81.0 | 83.5 | 82.0 | 42.0 | 72.5 | 85.3 | 81.6 | 59.9 | 58.5 | 66.5 | 77.8 | 81.8 | 78.8 | 90.2 | 54.8 | 71.1 | 62.6 | 87.2 | 71.8 | 73.9 |
| CNN-RNN | 96.7 | 83.1 | 94.2 | 92.8 | 61.2 | 82.1 | 89.1 | 94.2 | 64.2 | 83.6 | 70.0 | 92.4 | 91.7 | 84.2 | 93.7 | 59.8 | 93.2 | 75.3 | 99.7 | 78.6 | 84.0 |
| VeryDeep | 98.9 | 95.0 | 96.8 | 95.4 | 69.7 | 90.4 | 93.5 | 96.0 | 74.2 | 86.6 | 87.8 | 96.0 | 96.3 | 93.1 | 97.2 | 70.0 | 92.1 | 80.3 | 98.1 | 87.0 | 89.7 |
| RLSD | 96.4 | 92.7 | 93.8 | 94.1 | 71.2 | 92.5 | 94.2 | 95.7 | 74.3 | 90.0 | 74.2 | 95.4 | 96.2 | 92.1 | 97.9 | 66.9 | 93.5 | 73.7 | 97.5 | 87.6 | 88.5 |
| HCP | 98.6 | 97.1 | 98.0 | 95.6 | 75.3 | 94.7 | 95.8 | 97.3 | 73.1 | 90.2 | 80.0 | 97.3 | 96.1 | 94.9 | 96.3 | 78.3 | 94.7 | 76.2 | 97.9 | 91.5 | 90.9 |
| FeV+LV | 97.9 | 97.0 | 96.6 | 94.6 | 73.6 | 93.9 | 96.5 | 95.5 | 73.7 | 90.3 | 82.8 | 95.4 | 97.7 | 95.9 | 98.6 | 77.6 | 88.7 | 78.0 | 98.3 | 89.0 | 90.6 |
| Ours (512) | 98.5 | 96.7 | 95.6 | 95.7 | 73.7 | 92.1 | 95.8 | 96.8 | 76.5 | 92.9 | 87.2 | 96.6 | 97.5 | 92.8 | 98.3 | 76.9 | 91.3 | 83.6 | 98.6 | 88.1 | 91.3 |
| Ours (640) | 97.7 | 97.3 | 96.4 | 95.8 | 74.6 | 91.9 | 96.5 | 96.7 | 75.2 | 89.9 | 87.1 | 96.0 | 96.9 | 93.2 | 98.4 | 81.3 | 93.4 | 81.3 | 98.3 | 88.5 | 91.3 |
| Ours | 98.6 | 97.4 | 96.3 | 96.2 | 75.2 | 92.4 | 96.5 | 97.1 | 76.5 | 92.0 | 87.7 | 96.8 | 97.5 | 93.8 | 98.5 | 81.6 | 93.7 | 82.8 | 98.6 | 89.3 | 91.9 |
- 在 PASCAL VOC 2007(1-scale 512 或 640 以及多尺度/多裁剪)和 MS-COCO 上,采用无提案方法实现了最先进的平均精度均值 mAP。
- 在准确性和效率方面超越基于提案的方法,推理速度显著更快(在 GPU 上十视图测试大约 150–200 ms)。
- 注意区域相对于数百个对象提案提供具有竞争力甚至更优的 mAP(例如 5 个注意区域优于约 500 个提案)。
- 定位约束(anchor、scale、positive)显著提高 VOC 2007 和 MS-COCO 的 mAP,组合 A+S+P 取得最佳结果。
- 多尺度和多裁剪融合带来额外提升,随着跨尺度聚合补丁特征而改善。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。