[논문 리뷰] Advancing Vision Transformers with Group-Mix Attention
ViTs 내부에서 토큰-토큰, 토큰-그룹, 그룹-간 관계를 포착하기 위해 Group-Mix Attention(GMA)을 도입하고, 파라미터 수가 더 적은 채로 ImageNet, COCO, ADE20K에서 최첨단 결과를 달성하는 GroupMixFormer 백본을 형성한다.
Vision Transformers (ViTs) have been shown to enhance visual recognition through modeling long-range dependencies with multi-head self-attention (MHSA), which is typically formulated as Query-Key-Value computation. However, the attention map generated from the Query and Key captures only token-to-token correlations at one single granularity. In this paper, we argue that self-attention should have a more comprehensive mechanism to capture correlations among tokens and groups (i.e., multiple adjacent tokens) for higher representational capacity. Thereby, we propose Group-Mix Attention (GMA) as an advanced replacement for traditional self-attention, which can simultaneously capture token-to-token, token-to-group, and group-to-group correlations with various group sizes. To this end, GMA splits the Query, Key, and Value into segments uniformly and performs different group aggregations to generate group proxies. The attention map is computed based on the mixtures of tokens and group proxies and used to re-combine the tokens and groups in Value. Based on GMA, we introduce a powerful backbone, namely GroupMixFormer, which achieves state-of-the-art performance in image classification, object detection, and semantic segmentation with fewer parameters than existing models. For instance, GroupMixFormer-L (with 70.3M parameters and 384^2 input) attains 86.2% Top-1 accuracy on ImageNet-1K without external data, while GroupMixFormer-B (with 45.8M parameters) attains 51.2% mIoU on ADE20K.
연구 동기 및 목표
- ViT의 일반적인 Q-K-V 자기주목의 한계인 단일 계층에서만 토큰-토큰 상관관계만 모델링하는 문제를 동기화하고 해결한다.
- 다양한 그룹 크기에 걸쳐 토큰-토큰, 토큰-그룹, 그룹-간 상관관계를 모델링하기 위해 Group-Mix Attention(GMA)을 제안한다.
- 분류, 검출 및 분할 작업을 위해 GMA를 활용하는 계층적 비전 트랜스포머 백본으로 GroupMixFormer를 개발한다.
- 표준 벤치마크에서 파라미터 수를 경쟁력 있게 줄이면서도 성능을 향상시키는 것을 GMA가 보여준다.
제안 방법
- Q, K, V를 여러 구간으로 나누고 서로 다른 커널 크기를 가진 집계기를 통해 그룹 프록시를 생성한다.
- 원래의 토큰과 그룹 프록시의 혼합물에 대해 어텐션을 계산하여 다중 계층 간 상관관계를 포착한다.
- 어텐션 분기와 비어텐션 분기에서의 출력을 융합하기 위해 토큰 앙상블 계층을 사용한다.
- 깊이 방향 합성곱을 집계기로 활용하고, 토큰 수준의 상관관계를 보존하기 위해 선택적 항등 매핑을 적용한다.
- 네 가지 GroupMixFormer 구성을 (M, T, S, B, L)을 네 단계의 계층적 백본으로 제공한다.
- 분류를 위해 ImageNet-1K에서 학습 및 평가; COCO에서 Mask R-CNN 및 RetinaNet으로 검출/분할; ADE20K에서 UperNet 및 Semantic FPN으로 분할 평가.
실험 결과
연구 질문
- RQ1Group-Mix Attention이 각 트랜스포머 인코더 계층 내에서 토큰과 그룹 간의 다중 계층성 상관관계를 모델링할 수 있는가?
- RQ2토큰-그룹 및 그룹-간 상호작용을 도입하면 분류, 검출, 분할 등의 다양한 작업에서 전통적인 자체 주의보다 시각 표현이 향상되는가?
- RQ3ImageNet, COCO, ADE20K에서 정확도와 효율성 측면에서 GroupMixFormer 백본이 최신 ViT 및 CNN과 어떻게 비교되는가?
- RQ4다양한 집계기(kernel 크기)와 아키텍처 구성의 성능에 대한 영향은 무엇인가?
주요 결과
- GroupMixFormer는 ImageNet-1K 분류, COCO 객체 검출/분할, ADE20K 의미론적 분할에서 최첨단 또는 경쟁력 있는 정확도를 달성한다.
- 더 작은 GroupMixFormer 변형이 더 큰 모델에 견줄 만한 강한 ImageNet 성능을 달성하는 반면, 더 큰 변형은 해상도가 높을 때 더 높은 정확도에 도달한다.
- 제거 실험에서, 집계기가 결정적이다; 여러 프리-어텐션 분기에 그룹 기반 집계 를 포함시키면 Top-1 정확도 및 검출/분할 지표가 향상된다.
- Group-Mix 메커니즘은 다른 ViT 아키텍처에서도 이점을 제공하여 GroupMixFormer를 넘어서 광범위하게 적용 가능하다는 것을 시사한다.
- 슬라이딩 윈도우 기반의 집계에 의한 효율적 설계로 실제 계산 비용을 고려하면서 다중-계층 모델링이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.