QUICK REVIEW

[논문 리뷰] Zero-shot Learning via Simultaneous Generating and Learning

Hyeonwoo Yu, Beom-Hee Lee|arXiv (Cornell University)|2019. 10. 21.

Domain Adaptation and Few-Shot Learning인용 수 30

한 줄 요약

이 논문은 클래스별 다중모달 사전분포를 갖춘 변동형 오토인코더(Variational Auto-Encoder)를 사용하여 제로샷 러닝을 위한 동시 생성 및 학습(SGAL) 전략을 제안한다. 보이지 않는 클래스 데이터를 모델 파라미터와 함께 최적화할 수 있는 누락 변수로 간주하고, EM 유사 반복적 프로세스를 통해 본질적으로 본래의 데이터 분포를 동시에 학습함으로써, 기존의 외부 분류기 없이도 여러 벤치마크에서 최신 기술(SOTA) 성능을 달성한다.

ABSTRACT

To overcome the absence of training data for unseen classes, conventional zero-shot learning approaches mainly train their model on seen datapoints and leverage the semantic descriptions for both seen and unseen classes. Beyond exploiting relations between classes of seen and unseen, we present a deep generative model to provide the model with experience about both seen and unseen classes. Based on the variational auto-encoder with class-specific multi-modal prior, the proposed method learns the conditional distribution of seen and unseen classes. In order to circumvent the need for samples of unseen classes, we treat the non-existing data as missing examples. That is, our network aims to find optimal unseen datapoints and model parameters, by iteratively following the generating and learning strategy. Since we obtain the conditional generative model for both seen and unseen classes, classification as well as generation can be performed directly without any off-the-shell classifiers. In experimental results, we demonstrate that the proposed generating and learning strategy makes the model achieve the outperforming results compared to that trained only on the seen classes, and also to the several state-of-the-art methods.

연구 동기 및 목표

보이지 않는 클래스에 대한 학습 데이터 부족이라는 제로샷 러닝의 근본적 과제를 해결한다.
기존 ZSL 방법이 본래의 데이터로만 학습하고 의미적 임bedding을 통해 간접적인 일반화에 의존하는 한계를 극복한다.
학습 중에 본래의 클래스와 보이지 않는 클래스 양쪽 모두를 경험하는 통합 생성 모델을 개발하여 일반화 능력을 향상시킨다.
VAE의 인코더를 직접 분류기로 사용함으로써 외부 분류기의 필요성을 제거한다.
샘플링 중에 드롭아웃 정규화를 적용하여 보이지 않는 데이터 생성 시 모델의 불확실성을 줄인다.

제안 방법

보이지 않는 클래스 데이터를 모델 파라미터와 함께 최적화할 수 있는 누락 변수로 설정하여, EM 알고리즘을 모방하는 방식으로 처리한다.
본래의 클래스와 보이지 않는 클래스 양쪽의 복잡한 다중모달 데이터 분포를 모델링하기 위해 카테고리별 다중모달 사전분포를 갖춘 변동형 오토인코더(VAE)를 사용한다.
현재 모델 파라미터를 기반으로 보이지 않는 클래스의 합성 샘플을 반복적으로 생성하고, 이를 실재 본래 데이터와 함께 재학습한다.
생성 단계에서 드롭아웃을 적용하여 모델 불확실성을 감소시키고 생성 샘플의 강건성을 향상시킨다.
인코더를 엔드 투 엔드 분류기로 학습시켜 별도의 분류기 헤드가 필요 없도록 한다.
VAE의 조건부 입력으로 클래스 임베딩 벡터를 활용하여 학습 중에 보이지 않는 클래스의 샘플을 생성한다.

실험 결과

연구 질문

RQ1실제 샘플이 존재하지 않는 보이지 않는 클래스의 진짜 데이터 분포를 학습할 수 있는 생성 모델을 어떻게 설계할 수 있는가?
RQ2제로샷 러닝에서 데이터가 있어야 모델을 학습할 수 있고, 모델가 있어야 데이터를 생성할 수 있는 '닭과 계🥚 문제'는 어떻게 해결할 수 있는가?
RQ3모델 파라미터와 합성 보이지 않는 클래스 샘플을 동시에 최적화하는 것이 본래 데이터로만 학습하는 것보다 더 나은 일반화를 이끌어낼 수 있는가?
RQ4생성 단계에서 드롭아웃을 적용하면 모델의 강건성과 보이지 않는 클래스에 대한 성능 향상에 기여하는가?
RQ5외부 분류기가 없이도 VAE의 인코더를 직접 분류에 사용할 수 있는가?

주요 결과

제안된 SGAL 방법은 AwA1에서 62.2%의 조화 평균 정확도를 기록하여 기준 모델 mmVAE의 52.2%보다 뚜렷한 향상을 보였다. 이는 보이지 않는 클래스에서의 성능 향상을 의미한다.
AwA2에서는 조화 평균 정확도가 mmVAE의 26.9%에서 SGAL의 65.6%로 상승하여, 높은 클래스 다양성에도 불구하고 보이지 않는 클래스로의 일반화 능력이 뛰어나다는 것을 보여준다.
SGAL-dropout 변형은 강건성을 더욱 향상시켜, SGAL 단독보다 보이지 않는 클래스에서 더 높은 성능을 기록하였다. 이는 생성 과정에서 모델 불확실성을 감소시켰기 때문이다.
CUB 및 SUN 데이터셋에서 SGAL은 기존의 최신 기술(SOTA) 성능을 달성하였으며, AwA보다 5배와 12배 더 많은 클래스를 포함하고 있음에도 불구하고 강력한 확장성을 보여주었다.
보이지 않는 클래스에서의 성능 향상에도 불구하고, 본래 클래스에서의 성능는 다소 감소하는 트레이드오프가 존재한다. 이는 모델이 본래 및 보이지 않는 분포 간의 일반화를 위해 노력하기 때문이다.
T-SNE를 통한 시각화 결과, SGAL 학습 후 잠재 공간에서 보이지 않는 클래스의 클러스터가 더 분리되고 명확해졌으며, 이는 더 나은 디스엔트레인먼트와 일반화 능력을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.