Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning

Faisal Alamri, Anjan Dutta|arXiv (Cornell University)|2021. 07. 30.
Domain Adaptation and Few-Shot Learning참고 문헌 35인용 수 23
한 줄 요약

이 논문은 객체 부분 레이블이 없이도 다중 헤드 자기주의를 활용하여 구분 가능한 시각적 특징을 학습하는 Vision Transformer 기반 모델인 ViT-ZSL을 제안한다. 비견적 클래스 인식을 위해 관련 이미지 영역을 효과적으로 국소화함으로써, AWA2, CUB, SUN의 세 가지 GZSL 벤치마크에서 최고의 조화 평균 성능을 달성한다.

ABSTRACT

Zero-Shot Learning (ZSL) aims to recognise unseen object classes, which are not observed during the training phase. The existing body of works on ZSL mostly relies on pretrained visual features and lacks the explicit attribute localisation mechanism on images. In this work, we propose an attention-based model in the problem settings of ZSL to learn attributes useful for unseen class recognition. Our method uses an attention mechanism adapted from Vision Transformer to capture and learn discriminative attributes by splitting images into small patches. We conduct experiments on three popular ZSL benchmarks (i.e., AWA2, CUB and SUN) and set new state-of-the-art harmonic mean results {on all the three datasets}, which illustrate the effectiveness of our proposed method.

연구 동기 및 목표

  • 사전 학습된 시각적 특징에 의존하는 기존 제로샷 러닝(ZSL) 방법에서 명시적인 특징 국소화 부족 문제를 해결한다.
  • ZSL에서 약한 국소 시각 표현 학습의 한계를 극복하기 위해 더 강력한 주의 메커니즘을 도입한다.
  • 부분 수준의 레이블이나 객체 검출을 요구하지 않고도 새로운 객체 클래스의 제로샷 인식을 가능하게 한다.
  • 다중 헤드 자기주의를 통한 공동 전역 및 국소 특징 학습을 통해 Vision Transformer가 ZSL에서의 가능성과 효과성을 탐색한다.
  • 주의 기반 특징 학습을 통한 향상된 시각-의미 정렬을 통해 표준 GZSL 벤치마크에서 최고 성능을 달성한다.

제안 방법

  • 입력 이미지를 고정된 크기의 패치로 분할하여 Vision Transformer 인코더의 입력 토큰으로 사용한다.
  • 이미지 패치 간의 관계를 계산하기 위해 다중 헤드 스케일드 도트곱 자기주의를 적용하여, 모델이 구분 가능한 국소 및 전역 특징에 주의를 기울일 수 있도록 한다.
  • 학습 가능한 클래스 토큰을 사용하여 패치 표현을 통합된 이미지 수준의 임베딩으로 집계한다.
  • 학습된 주의 가중치를 사용하여 시각적 특징을 공유 의미 공간에 투영하여, 본래의 본문과 볼 수 없는 클래스의 의미 임베딩과 정렬한다.
  • 대비 손실을 사용하여 시각적 특징과 해당 의미 임베딩 간의 유사도를 최대화함으로써 모델을 엔드 투 엔드로 훈련시킨다.
  • 자기주의 메커니즘을 활용하여 명시적 지도 없이도 관련 특징을 암묵적으로 국소화함으로써, 본래의 클래스에 대한 일반화 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1부분 수준의 레이블이 없이도 Vision Transformer 기반의 다중 헤드 자기주의가 제로샷 러닝을 위한 시각적 특징 국소화를 향상시킬 수 있는가?
  • RQ2자기주의 메커니즘이 본래의 클래스 인식을 위해 국소 및 전역의 구분 가능한 특징을 얼마나 효과적으로 포착하는가?
  • RQ3제안된 ViT-ZSL 모델이 일반화된 제로샷 러닝(GZSL) 설정에서 기존 최고 성능의 ZSL 방법을 초월하는가?
  • RQ4부분적으로 가려지거나 완전하지 않은 객체 외형이 있는 경우, 주의 메커니즘이 모델이 의미적으로 관련 있는 이미지 영역에 집중하는 데 얼마나 기여하는가?
  • RQ5모델은 미세조정이나 추가 지도 없이도, SUN과 같이 많은 수의 객체 클래스를 포함한 데이터셋에 일반화 가능한가?

주요 결과

  • ViT-ZSL는 AWA2 데이터셋에서 기존 방법들(AREN: 92.9% 정확도, 그러나 조화 평균에 기재되지 않음)을 모두 능가하는 새로운 최고 조화 평균 90.02%를 달성하였다.
  • CUB 데이터셋에서 ViT-ZSL는 본래 클래스에 대해 가장 높은 정확도(83.4%)를 기록하였고, 본래 클래스에 대해 두 번째로 높은 정확도(92.1%)를 기록하여, 보고된 모든 모델 중에서 가장 우수한 조화 평균을 달성하였다.
  • SUN 데이터셋에서 ViT-ZSL는 최고의 조화 평균 47.9%를 기록하여, 모든 다른 모델을 크게 능가하였으며, 대규모이고 세분화된 데이터셋에서 강력한 일반화 능력을 보였다.
  • 정성적 주의 맵 분석 결과, 모델은 새의 머리나 상단 부분만 보일 경우와 같이 부분적으로 보이는 경우에도 객체 수준의 특징에 효과적으로 집중하는 것으로 나타났다.
  • 모델은 의미 특징과 관련된 영역(예: 숲, 지면, 기대는 구조물 등)에 주의를 기울이며 의미 정렬을 향상시켰다.
  • 강력한 성능에도 불구하고, 모델은 여전히 본래 클래스에 대한 편향을 보이며, 향후 전도적 훈련 또는 도메인 적응 기법을 통해 본래 및 본래 클래스 간의 성능 균형을 더 잘 맞추기 위한 연구가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.