Skip to main content
QUICK REVIEW

[논문 리뷰] Leveraging the Invariant Side of Generative Zero-Shot Learning

Jingjing Li, Mengmeng Jin|arXiv (Cornell University)|2019. 04. 08.
Domain Adaptation and Few-Shot Learning참고 문헌 37인용 수 103
한 줄 요약

LisGAN은 조건부 Wasserstein GAN으로 시맨틱 설명과 불변의 소울 샘플을 안내받아 보지 않은 시각 특징을 직접 생성한 다음, 제로샷 인식에 대한 계단식(cascaded) 분류기를 사용하여 다수 벤치마크에서 최첨단 성과를 달성한다.

ABSTRACT

Conventional zero-shot learning (ZSL) methods generally learn an embedding, e.g., visual-semantic mapping, to handle the unseen visual samples via an indirect manner. In this paper, we take the advantage of generative adversarial networks (GANs) and propose a novel method, named leveraging invariant side GAN (LisGAN), which can directly generate the unseen features from random noises which are conditioned by the semantic descriptions. Specifically, we train a conditional Wasserstein GANs in which the generator synthesizes fake unseen features from noises and the discriminator distinguishes the fake from real via a minimax game. Considering that one semantic description can correspond to various synthesized visual samples, and the semantic description, figuratively, is the soul of the generated features, we introduce soul samples as the invariant side of generative zero-shot learning in this paper. A soul sample is the meta-representation of one class. It visualizes the most semantically-meaningful aspects of each sample in the same category. We regularize that each generated sample (the varying side of generative ZSL) should be close to at least one soul sample (the invariant side) which has the same class label with it. At the zero-shot recognition stage, we propose to use two classifiers, which are deployed in a cascade way, to achieve a coarse-to-fine result. Experiments on five popular benchmarks verify that our proposed approach can outperform state-of-the-art methods with significant improvements.

연구 동기 및 목표

  • 실제 unseen 샘플 없이 시맨틱 설명을 사용하여 보이지 않는 클래스의 인식을 가능하게 하는 제로샷 학습 동기화.
  • 생성된 unseen 특징의 다양성과 신뢰성을 모두 보장하는 생성 프레임워크를 개발.
  • 생성된 특징을 규제하기 위한 불변 표현으로서 소울 샘플 도입.
  • 클래스당 다중 뷰를 다루는 도메인 이동 문제 해결를 위한 다중 소울 샘플 사용.
  • 생성된 특징에 대해 거친-정교한 cascade 분류기로 인식 성능 향상.

제안 방법

  • 시맨틱 설명에 조건부로 unseen 특징을 합성하기 위해 조건부 Wasserstein GAN을 학습한다.
  • 다양한 뷰 특성을 포착하기 위해 각 클래스당 다중 소울 샘플을 포함하여 불변 클래스 표현으로 소울 샘플을 도입한다.
  • 생성된 샘플과 소울 샘플이 실제 클래스 표현과 정렬되도록 두 가지 정규화 항(L_R1 및 L_R2)을 정의한다.
  • 실제 및 생성된 특징에 대해 Wasserstein 손실과 감독 분류 손실을 함께 사용하는 이중 분기 GAN 목표를 사용한다.
  • 제로샷 인식을 합성된 특징에 대한 감독 학습으로 전환하고, 엔트로피 기반 신뢰도에 기반한 계단식 분류기를 사용해 예측을 다듬는다.
  • 다양성과 정렬의 균형을 맞추기 위해 리프시츠 제약(β를 10으로 고정)으로 최적화하고 λ 및 정규화 가중치를 조정한다.

실험 결과

연구 질문

  • RQ1조건부 GAN이 시맨틱 설명과 일치하는 다양하고 판별 가능한 unseen 특징을 생성할 수 있는가?
  • RQ2소울 샘플이 소울 없는 특징을 방지하고 다중 뷰 도메인 이동을 완화하는 데 생성 규제에 효과적인가?
  • RQ3높은 신뢰도 unseen 샘플을 활용한 계단식 분류기가 일반화 제로샷 성능을 개선하는가?
  • RQ4하이퍼파라미터에 대한 LisGAN의 민감도와 학습 중 안정성은 어떠한가?

주요 결과

  • LisGAN은 다섯 개의 제로샷 학습 평가 중 네 곳에서 최상의 성능을 달성했고 나머지 데이터세트에서 최첨단의 성과를 보였다.
  • aPaY에서 LisGAN은 이전 최첨단보다 2.6% 향상되었다.
  • AwA, CUB, FLO에서 LisGAN은 제로샷 정확도에서 각각 2.4%, 1.5%, 2.4%의 향상을 보였다.
  • 일반화 제로샷 학습에서 LisGAN은 데이터세트별로 조화 평균(harmonic-mean) 2.8%까지 개선을 보였고 평균 약 2.2%의 향상을 나타냈다.
  • 광범위 연구에서 소울 샘플 규제, 클래스당 다중 소울 샘플, 계단식 분류기가 함께 성능 향상에 기여함을 보여주는 소거 연구.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.