Skip to main content
QUICK REVIEW

[논문 리뷰] Semantic-Guided Multi-Attention Localization for Zero-Shot Learning

Yizhe Zhu, Jianwen Xie|arXiv (Cornell University)|2019. 03. 01.
Domain Adaptation and Few-Shot Learning인용 수 48
한 줄 요약

이 논문은 주석 없이 구분 가능한 객체 부위를 발견하고 임베딩 소프트맥스 및 클래스-센터 트리플렛 손실로 전역 및 로컬 특징을 공동 학습하는 시맨틱 가이드 멀티 어텐션 로컬라이제이션 모델(SGMA)을 제로샷 학습에 도입하여 최첨단 성능을 달성한다.

ABSTRACT

Zero-shot learning extends the conventional object classification to the unseen class recognition by introducing semantic representations of classes. Existing approaches predominantly focus on learning the proper mapping function for visual-semantic embedding, while neglecting the effect of learning discriminative visual features. In this paper, we study the significance of the discriminative region localization. We propose a semantic-guided multi-attention localization model, which automatically discovers the most discriminative parts of objects for zero-shot learning without any human annotations. Our model jointly learns cooperative global and local features from the whole object as well as the detected parts to categorize objects based on semantic descriptions. Moreover, with the joint supervision of embedding softmax loss and class-center triplet loss, the model is encouraged to learn features with high inter-class dispersion and intra-class compactness. Through comprehensive experiments on three widely used zero-shot learning benchmarks, we show the efficacy of the multi-attention localization and our proposed approach improves the state-of-the-art results by a considerable margin.

연구 동기 및 목표

  • 제로샷 인식에 대한 전역 이미지 특징을 넘어 차별적 특징 학습 동기를 부여한다.
  • 수동 주석 없이 자동으로 다중 차별적 객체 부위를 발견한다.
  • 시맨틱 가이드 하에 전역 및 로컬 시각 특징을 함께 학습하여 시맨틱 임베딩을 개선한다.
  • 임베딩 소프트맥스 손실로 클래스 간 분리를 극대화하고 클래스-센터 트리플렛 손실로 클래스 내 분산을 감소시킨다.
  • 표준 제로샷 학습 벤치마크에서 효과를 입증하고 부품 로컬라이제이션의 영향을 분석한다.

제안 방법

  • 시맨틱 가이드 멀티 어텐션 로컬라이제이션 모델을 제안하여 CNN 특징 채널 위에 다수의 어텐션 맵을 출력한다.
  • 집약도(compactness)와 다양성(diversity) 멀티 어텐션 손실을 사용하여 집중적이고 다양한 부위 어텐션 맵을 유도한다.
  • 어텐션 피크를 기준으로 구분 가능한 부위를 자르는 미분 가능한 영역 절단 서브네트워크를 도입한다.
  • 전체 이미지와 잘려진 부위를 위한 별도 CNN 백본을 통해 전역 및 로컬 특징을 학습하고 임베딩을 위한 후단 융합을 사용한다.
  • 다른 클래스 간 분리 극대화를 위한 임베딩 소프트맥스 손실과 클래스 간 중심을 줄여 intra-class 분산을 감소시키는 클래스-센터 트리플렛 손실로 학습한다.
  • 추론 시 임베딩 분기와 클래스-센터 분기에서 점수를 결합하여 보이지 않는 클래스들을 분류한다.

실험 결과

연구 질문

  • RQ1약하게 지도된 주의 localization이 부품 주석 없이도 제로샷 학습을 위한 다중 차별적 객체 부위를 식별할 수 있는가?
  • RQ2시맨틱 표현에 의해 가이드되는 전역 및 로컬 특징을 공동 학습하는 것이 제로샷 인식 성능을 향상시키는가?
  • RQ3어텐션 맵의 집약성(compactness)과 다양성 제약이 로컬라이제이션 품질 및 다운스트림 제로샷 정확도에 어떤 영향을 미치는가?
  • RQ4임베딩 소프트맥스 손실과 클래스-센터 트리플렛 손실의 결합이 특징 구별력에 미치는 영향은 무엇인가?
  • RQ5SGMA가 표준 벤치마크(CUB, FLO, AwA)에서 최첨단 제로샷 방법에 비해 어떤 성능을 보이는가?

주요 결과

  • SGMA는 세 가지 제로샷 학습 벤치마크(CUB, FLO, AwA)에서 표준 분할에 걸쳐 최첨단 결과를 달성하며 미세한 데이터셋에서 특히 큰 향상을 보인다.
  • 주석 없이 두 개의 차별적 부위 영역(헤드/테일)을 학습하여 부위 로컬라이제이션을 향상시키고 무작위 자르기와 비교해도 주석이 달린 부위 검출기에 근접한다.
  • 집약성 및 다양성 손실로의 공동 학습이 주의 정확도와 다양성을 크게 향상시켜 제로샷 성능에 기여한다.
  • 임베딩 소프트맥스 손실과 클래스-센터 트리플렛 손실의 결합은 클래스 간 간섭을 높이고 intra-class 클러스터링을 강화하여 구별력을 높인다.
  • 일반화된 제로샷 설정에서 SGMA는 조화 평균(H) 점수에서 더 높은 성과를 달성하며, 특히 CUB 데이터셋에서 기존 방법보다 6.7% 향상을 보인다.
  • 전역 및 로컬 특징을 엔드투엔드로 학습하는 구성이 베이스라인 및 경쟁하는 엔드투엔드 방식(LDF 등)에 비해 상당한 개선을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.