Skip to main content
QUICK REVIEW

[论文解读] Query2Label: A Simple Transformer Way to Multi-Label Classification

Shilong Liu, Lei Zhang|arXiv (Cornell University)|Jul 22, 2021
Advanced Image and Video Retrieval Techniques参考文献 54被引用 120
一句话总结

Query2Label 引入了一种简单的两阶段 Transformer 基于框架,该框架使用可学习的标签嵌入作为查询以执行跨注意力和自适应特征池化进行多标签分类,在多个数据集上达到最先进的结果。

ABSTRACT

This paper presents a simple and effective approach to solving the multi-label classification problem. The proposed approach leverages Transformer decoders to query the existence of a class label. The use of Transformer is rooted in the need of extracting local discriminative features adaptively for different labels, which is a strongly desired property due to the existence of multiple objects in one image. The built-in cross-attention module in the Transformer decoder offers an effective way to use label embeddings as queries to probe and pool class-related features from a feature map computed by a vision backbone for subsequent binary classifications. Compared with prior works, the new framework is simple, using standard Transformers and vision backbones, and effective, consistently outperforming all previous works on five multi-label classification data sets, including MS-COCO, PASCAL VOC, NUS-WIDE, and Visual Genome. Particularly, we establish $91.3\%$ mAP on MS-COCO. We hope its compact structure, simple implementation, and superior performance serve as a strong baseline for multi-label classification tasks and future studies. The code will be available soon at https://github.com/SlongLiu/query2labels.

研究动机与目标

  • 激励并解决在一张图像中可能出现多种对象或概念的多标签分类挑战。
  • 提出一种简单、与骨干网络无关的框架,利用 Transformer 解码器来查询每个标签的存在性。
  • 通过 Transformer 解码器中的交叉注意力实现对每个标签的自适应、区域聚焦的特征提取。
  • 在标准基准(MS-COCO、PASCAL VOC、NUS-WIDE、Visual Genome)上展示使用简单组件的最先进性能。

提出的方法

  • 使用一个两阶段框架,其中骨干网络从图像中提取空间特征。
  • 引入可学习的标签嵌入作为查询到多层 Transformer 解码器。
  • 对空间特征图应用跨注意力,以为每个标签聚合标签特异的特征。
  • 用线性层和 sigmoid 将得到的标签特异特征投影到_logits_,以预测标签的存在性。
  • 在骨干无关的设置下进行训练,并使用不对称版本的 focal loss 来处理类别不平衡。
  • 可选地加入一个轻量级的 Transformer 编码器以融合全局上下文;端到端训练。
  • 在数据中对标签嵌入进行地基化,以隐式捕捉标签相关性,而无需显式图结构。

实验结果

研究问题

  • RQ1基于 Transformer 的跨注意力结合标签特定查询,是否能改进在多标签图像中对每个标签的判别性区域的定位?
  • RQ2端到端学习标签嵌入是否能够提供鲁棒的、骨干网络无关的多标签分类并达到最先进的性能?
  • RQ3所提出的不对称损失如何与基于 Transformer 的框架交互以应对跨数据集的标签不平衡?
  • RQ4在基线架构和输入分辨率不同的情况下,Q2L 在各基准上的性能有何影响?

主要发现

  • 在 MS-COCO、PASCAL VOC、NUS-WIDE 和 Visual Genome 上在多项指标上达到新的最先进结果。
  • 特别在中等尺寸物体上表现强劲,得益于空间自适应特征池化。
  • 表明一种简单的、端到端可训练的标签嵌入策略结合跨注意力,提供强基线,架构紧凑且易于实现。
  • 具备多头注意力的 Transformer 解码器可以将物体表征解耦为多部分或多视角,在遮挡和视角变化下提高识别能力。
  • 骨干无关的设计在各种骨干(CNNs 与 Vision Transformers)和分辨率下都显示出有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。