[논문 리뷰] Cross Attention Network for Few-shot Classification
CAN은 클래스 특징과 질의 특징 간의 의미적 관련성을 모델링하여 대상 객체를 강조하는 Cross Attention Module을 도입하고, 확신 있는 질의 샘플로 지원을 보강하는 트랜스덕티브 추론 단계를 추가하여 펀샷 벤치마크에서 최첨단 성능을 달성합니다.
Few-shot classification aims to recognize unlabeled samples from unseen classes given only few labeled samples. The unseen classes and low-data problem make few-shot classification very challenging. Many existing approaches extracted features from labeled and unlabeled samples independently, as a result, the features are not discriminative enough. In this work, we propose a novel Cross Attention Network to address the challenging problems in few-shot classification. Firstly, Cross Attention Module is introduced to deal with the problem of unseen classes. The module generates cross attention maps for each pair of class feature and query sample feature so as to highlight the target object regions, making the extracted feature more discriminative. Secondly, a transductive inference algorithm is proposed to alleviate the low-data problem, which iteratively utilizes the unlabeled query set to augment the support set, thereby making the class features more representative. Extensive experiments on two benchmarks show our method is a simple, effective and computationally efficient framework and outperforms the state-of-the-arts.
연구 동기 및 목표
- 보지 못한 클래스와 적은 데이터로 인해 펀샷 분류에서 판별 특징의 불안정성을 해결한다.
- 클래스 특징과 질의 특징 간의 교차 상관 관계를 학습하여 대상 영역을 강조하는 Cross Attention Module (CAM)을 제안한다.
- 비레이블 질의 샘플을 사용해 클래스 표현을 풍부하게 하기 위한 트랜스덕티브 추론 알고리즘을 도입한다.
- CAN이 간단하고 효율적이며 표준 벤치마크에서 최첨단 성능을 달성함을 보인다.
제안 방법
- 상관 계층과 메타 융합 계층을 통해 클래스 특징 맵과 질의 특징 맵 사이의 교차 어텐션 맵을 계산하는 Cross Attention Module (CAM)을 도입한다.
- 로컬 특징의 코사인 유사도로부터 클래스 상관 맵 R^p와 질의 상관 맵 R^q를 계산하고, 커널 w를 출력하는 메타 학습기를 통해 어텐션 맵 A^p와 A^q를 생성한다.
- 1 + A^p와 1 + A^q로 특징에 가중치를 주어 잔차 어텐션을 적용하여 판별 가능한 P̄와 Q̄를 얻는다.
- L = λL1 + L2의 결합 손실로 CAN을 학습하는데, L1은 최근접 이웃 기반의 로컬 감독이고 L2는 글로벌 분류 손실이다.
- 추론 시, 귀납적 혹은 트랜스덕티브 전략을 사용하고, 트랜스덕티브 추론은 의사 레이블링된 질의 샘플로 보조 집합을 보강하여 클래스 특징을 반복적으로 정제한다.
- 선택적으로 CAM을 트랜스덕티브 추론과 결합하여 다른 모델들(e.g., Matching Network, Prototypical Network, Relation Network)에 확장한다.
실험 결과
연구 질문
- RQ1펀샷 작업에서 지원(클래스) 및 질의 특징 간의 교차 어텐션이 보지 못한 클래스의 판별력을 향상시킬 수 있는가?
- RQ2확신 있게 의사 레이블이 붙은 질의 샘플로 보조 집합을 보강하는 트랜스덕티브 추론 전략이 데이터가 적은 조건에서 성능을 향상시키는가?
- RQ3교차 어텐션 접근이 표준 펀샷 벤치마크에 실용적일 만큼 계산적으로 효율적인가?
- RQ4CAM 안내 특징이 여러 데이터셋에 걸쳐 귀납적 및 트랜스덕티브 펀샷 분류 설정 모두를 향상시킬 수 있는가?
주요 결과
| 모델 | 임베딩 | IT(s) | miniImageNet 1샷 | miniImageNet 5샷 | tieredImageNet 1샷 | tieredImageNet 5샷 |
|---|---|---|---|---|---|---|
| CAN | ResNet-12 | 0.044 | 63.85 ± 0.48 | 79.44 ± 0.34 | 69.89 ± 0.51 | 84.23 ± 0.37 |
| CAN+T | ResNet-12 | - | 67.19 ± 0.55 | 80.64 ± 0.35 | 73.21 ± 0.58 | 84.93 ± 0.38 |
- CAN은 miniImageNet 및 tieredImageNet에서 5-way 1-shot 및 5-way 5-shot 설정에서 최첨단 성능을 달성한다.
- CAN+.T(트랜스덕티브 CAN)는 보고된 벤치마크에서 1-shot에서 최대 8%, 5-shot에서 최대 5%의 성능 향상을 보여주었다.
- 고찰 연구에서 글로벌 분류 손실과 교차 어텐션 모듈이 성능을 크게 향상시키며, CAM의 메타 학습기가 적응형 커널을 효과적으로 생성함을 보여준다.
- CAN용으로 설계된 트랜스덕티브 추론은 다른 펀샷 모델들(Matching Network, Prototypical Network, Relation Network)도 개선하는 데 일반화될 수 있다.
- CAM의 효율적인 상관 기반 어텐션과 가벼운 메타 학습기로 인해 CAN은 비교적 적은 계산 오버헤드와 파라미터 수로 이러한 이득을 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.