QUICK REVIEW

[논문 리뷰] Query2Label: A Simple Transformer Way to Multi-Label Classification

Shilong Liu, Lei Zhang|arXiv (Cornell University)|2021. 07. 22.

Advanced Image and Video Retrieval Techniques참고 문헌 54인용 수 120

한 줄 요약

Query2Label은 learnable label embeddings를 쿼리로 사용하여 크로스 어텐션과 적응형 피처 풀링을 수행하고 다중 라벨 분류를 위한 간단한 두 단계 Transformer 기반 프레임워크를 소개하며, 여러 데이터셋에서 최첨단 결과를 달성합니다.

ABSTRACT

This paper presents a simple and effective approach to solving the multi-label classification problem. The proposed approach leverages Transformer decoders to query the existence of a class label. The use of Transformer is rooted in the need of extracting local discriminative features adaptively for different labels, which is a strongly desired property due to the existence of multiple objects in one image. The built-in cross-attention module in the Transformer decoder offers an effective way to use label embeddings as queries to probe and pool class-related features from a feature map computed by a vision backbone for subsequent binary classifications. Compared with prior works, the new framework is simple, using standard Transformers and vision backbones, and effective, consistently outperforming all previous works on five multi-label classification data sets, including MS-COCO, PASCAL VOC, NUS-WIDE, and Visual Genome. Particularly, we establish $91.3\%$ mAP on MS-COCO. We hope its compact structure, simple implementation, and superior performance serve as a strong baseline for multi-label classification tasks and future studies. The code will be available soon at https://github.com/SlongLiu/query2labels.

연구 동기 및 목표

하나의 이미지에 여러 물체나 개념이 나타날 수 있는 다중 라벨 분류의 도전 과제를 동기 부여하고 해결한다.
각 레이블의 존재 여부를 쿼리하기 위해 Transformer 디코더를 활용하는 간단하고 백본에 구애받지 않는 프레임워크를 제안한다.
크로스 어텐션을 통해 각 레이블에 대해 지역 중심의 특징 추출을 가능하게 한다.
간단한 구성요소를 사용하여 MS-COCO, PASCAL VOC, NUS-WIDE, Visual Genome 등의 표준 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

백본이 이미지에서 공간 특징을 추출하는 두 단계 프레임워크를 사용한다.
학습 가능한 레이블 임베딩을 다층 Transformer 디코더의 쿼리로 도입한다.
레이블마다 공간 특징 맵에서 레이블 특이적 특징을 풀링하기 위해 크로스 어텐션을 적용한다.
생성된 레이블 특이적 특징을 선형 계층과 시그모이드를 통해 로짓으로 투영하여 레이블의 존재 여부를 예측한다.
백본-구애 없는 설정으로 학습하고, 클래스 불균형을 다루기 위해 비대칭 포컬 로스를 최적화한다.
선택적으로 글로벌 맥락을 융합하는 경량 Transformer 인코더를 포함해 엔드투엔드 학습을 수행한다.
레이블 임베딩을 데이터에 바인딩해 명시적 그래프 없이 레이블 간 상관관계를 암묵적으로 포착한다.

실험 결과

연구 질문

RQ1Transformer 기반의 크로스 어텐션과 레이블 특이적 쿼리가 다중 라벨 이미지에서 각 레이블에 대해 식별 가능한 영역의 위치화를 개선할 수 있는가?
RQ2레이블 임베딩을 엔드투엔드로 학습하는 것이 강건하고 백본에 구애받지 않는 다중 라벨 분류에서 최첨단 성능을 제공하는가?
RQ3제안된 비대칭 손실이 Transformer 기반 프레임워크와 어떻게 상호작용하여 데이터셋 간 레이블 불균형을 다루는가?
RQ4다양한 백본 아키텍처와 입력 해상도가 Q2L의 벤치마크 성능에 어떤 영향을 미치는가?

주요 결과

MS-COCO, PASCAL VOC, NUS-WIDE, Visual Genome에서 여러 지표에 대해 새로운 최첨단 결과를 달성한다.
공간적으로 적응적인 특징 풀링 덕분에 중간 크기의 객체에 대해 우수한 성능을 보인다.
크로스 어텐션과 함께 간단하고 엔드투엔드로 학습 가능한 레이블 임베딩 전략이 작고 구현이 쉬운 아키텍처로 강력한 베 baseline을 제공한다.
Transformer 디코더의 다중 헤드 어텐션은 객체 표현을 여러 부분이나 뷰로 분리해 차단된 물체 인식과 시점 변화 하의 인식 성능을 향상시킨다.
백본에 구애받지 않는 설계가 다양한 백본(CNN 및 비전 트랜스포머)과 해상도에서 효과적임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.