QUICK REVIEW

[论文解读] Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition

Tianshui Chen, Muxin Xu|arXiv (Cornell University)|Aug 20, 2019

Multimodal Machine Learning Applications参考文献 34被引用 29

一句话总结

该论文提出了一种语义特定图表示学习（SSGRL）框架，用于多标签图像识别，通过类别特定的语义指导增强特征学习，并利用图传播建模标签共现关系。通过整合语义解耦模块与语义交互模块，SSGRL 实现了最先进性能，在 PASCAL VOC、COCO 和 Visual Genome 等基准数据集上 mAP 提升最高达 6.7%。

ABSTRACT

Recognizing multiple labels of images is a practical and challenging task, and significant progress has been made by searching semantic-aware regions and modeling label dependency. However, current methods cannot locate the semantic regions accurately due to the lack of part-level supervision or semantic guidance. Moreover, they cannot fully explore the mutual interactions among the semantic regions and do not explicitly model the label co-occurrence. To address these issues, we propose a Semantic-Specific Graph Representation Learning (SSGRL) framework that consists of two crucial modules: 1) a semantic decoupling module that incorporates category semantics to guide learning semantic-specific representations and 2) a semantic interaction module that correlates these representations with a graph built on the statistical label co-occurrence and explores their interactions via a graph propagation mechanism. Extensive experiments on public benchmarks show that our SSGRL framework outperforms current state-of-the-art methods by a sizable margin, e.g. with an mAP improvement of 2.5%, 2.6%, 6.7%, and 3.1% on the PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks, respectively. Our codes and models are available at https://github.com/HCPLab-SYSU/SSGRL.

研究动机与目标

解决多标签图像识别中因缺乏部件级监督而导致的语义区域定位不准确问题。
克服现有方法在充分挖掘语义区域间交互关系以及显式建模标签共现性方面的局限性。
通过将类别语义与统计标签共现性整合到统一的图表示学习框架中，提升多标签图像分类性能。
在仅使用图像级标注的情况下实现端到端训练，同时在无需边界框监督的前提下实现语义对象的精确定位。

提出的方法

引入语义解耦模块，利用类别语义指导语义特定特征图的学习，聚焦于相关物体区域。
基于统计标签共现关系构建图，以建模类别之间的关系并引导特征交互。
应用图传播机制，实现在语义特定特征之间的互信息交换，增强表示学习。
使用全局图像特征与类别特定语义向量初始化图节点，通过拼接操作丰富节点表示。
使用图像级标注对整个框架进行端到端训练，避免对边界框标注的依赖。
采用 ResNet-101 作为主干网络，并将最后的全连接层替换为多标签分类头。

实验结果

研究问题

RQ1类别语义能否被有效利用以指导多标签图像识别中语义区域的定位？
RQ2如何比基于序列 RNN 的方法更有效地建模语义区域之间的相互作用？
RQ3引入统计标签共现性在多标签分类性能上的提升程度如何？
RQ4所提出的基于图的交互机制是否优于传统的注意力或池化特征聚合方法？
RQ5该框架能否在具有不同类别规模与复杂度的数据集（如 PASCAL VOC、COCO 和 Visual Genome）上实现良好泛化？

主要发现

与最先进方法相比，SSGRL 框架在 PASCAL VOC 2007 上实现 mAP 提升 2.5%，在 PASCAL VOC 2012 上提升 2.6%。
在 Microsoft-COCO 数据集上，mAP 从 77.1% 提升至 83.8%，相对提升 6.7%。
在 Visual Genome 500 数据集上，mAP 从 33.5% 提升至 36.6%，表明其在大规模、复杂数据集上的有效性。
消融实验表明，若移除语义交互模块，mAP 下降 1.6%，凸显其关键作用。
语义解耦模块显著提升了对难识别类别的检测性能，如烤面包机（AP 提升 32.5%）和吹风机（AP 提升 24.7%）。
在 COCO 上进行预训练并融合特征后，该框架在 PASCAL VOC 2012 上实现了新的最先进 mAP 95.4%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。