QUICK REVIEW

[논문 리뷰] Zero-Shot Learning via Class-Conditioned Deep Generative Models

Wenlin Wang, Yunchen Pu|arXiv (Cornell University)|2017. 11. 15.

Domain Adaptation and Few-Shot Learning참고 문헌 42인용 수 51

한 줄 요약

제로샷 학습을 위한 각 클래스가 감독 VAE에 대해 클래스 조건부 잠재 가우시안 사전으로 표현되는 심층 생성 모델을 도입하고, 테스트 잠재 포스트에 보이지 않는 클래스 사전에 매칭함으로써 유도(inductive), 트랜스덕티브(transductive), 및 소샷 ZSL을 가능하게 한다.

ABSTRACT

We present a deep generative model for learning to predict classes not seen at training time. Unlike most existing methods for this problem, that represent each class as a point (via a semantic embedding), we represent each seen/unseen class using a class-specific latent-space distribution, conditioned on class attributes. We use these latent-space distributions as a prior for a supervised variational autoencoder (VAE), which also facilitates learning highly discriminative feature representations for the inputs. The entire framework is learned end-to-end using only the seen-class training data. The model infers corresponding attributes of a test image by maximizing the VAE lower bound; the inferred attributes may be linked to labels not seen when training. We further extend our model to a (1) semi-supervised/transductive setting by leveraging unlabeled unseen-class data via an unsupervised learning module, and (2) few-shot learning where we also have a small number of labeled inputs from the unseen classes. We compare our model with several state-of-the-art methods through a comprehensive set of experiments on a variety of benchmark data sets.

연구 동기 및 목표

보지 않은 클래스에 대한 라벨 데이터가 이용 불가능하거나 희박한 상황에서 제로샷 학습의 필요성을 제시한다.
각 클래스를 클래스 속성에 조건화된 잠재 공간 분포로 표현하여 클래스 내 변이성을 포착한다.
클래스 조건부 사전을 사용하여 보이지 않는 클래스를 인식하는 감독된 VAE 프레임워크를 개발한다.
비라벨 데이터와 소수의 라벨이 있는 보이지 않는 클래스 예시를 활용하여 반지도학/트랜스덕티브 및 소샷 설정으로 모델을 확장한다.
보여진 클래스 데이터만으로(선택적 비라벨 데이터 포함) 엔드-투-엔드 학습을 수행하여 판별적 잠재 표현을 학습한다.

제안 방법

μ(a)=W_μ a 그리고 Σ(a)=diag(exp(W_σ a))인 클래스 조건부 잠재 가우시안 사전 p_ψ(z|a)를 정의한다.
q_φ(z|x)를 사용한 변분 하한을 이용해 E_{q}[log p_θ(x|z)] - KL(q_φ(z|x)||p_ψ(z|a))를 최대화한다.
q_φ(z|x)가 실제 클래스 사전 p_ψ(z|a)에 가깝고 다른 클래스 사전과는 멀도록 마진 정규화를 도입하며, 이는 softmax 기반의 대리손실로 근사한다.
비라벨 데이터 정규화를 추가하여 보이지 않는 클래스 예측을 KL 발산 간의 차이를 통해 선명하게 만들어 트랜스덕티브 ZSL로 확장한다.
보이지 않는 클래스의 라벨링된 예를 포함하고 이 추가 샘플들에 대해 동일한 목적함수를 최적화함으로써 소샷 학습을 가능하게 한다.
AwA, CUB-200, SUN, 및 ImageNet에서 VGG-19 fc7 특징을 사용하고, 해당되는 경우 ImageNet용 word2vec 임베딩을 활용하여 실험적으로 평가한다.

실험 결과

연구 질문

RQ1VAE의 클래스 조건부 잠재 분포가 클래스 내 변이성을 포착하고 보이지 않는 클래스에 대한 정확한 ZSL을 가능하게 할 수 있는가?
RQ2비라벨 데이터(트랜스덕티브 설정)를 통합하는 것이 순수한 유도 접근법에 비해 제로샷 및 소샷 성능을 향상시키는가?
RQ3마진 기반 정규화가 잠재 공간의 클래스 판별과 최종 예측에 어떤 영향을 미치는가?
RQ4VAE 목표에서 재구성 항이 데이터셋 전반의 ZSL 성능에 미치는 영향은 무엇인가?
RQ5본 방법이 대규모 데이터셋(예: ImageNet)으로 확장될 수 있으며 서로 다른 시맨틱 표현(속성 vs. 워드 벡터)을 활용할 수 있는가?

주요 결과

제안된 VZSL 방법은 소규모 데이터세트(AwA, CUB-200, SUN)와 대규모 ImageNet에서 유도 ZSL로 최첨단 기준선보다 우수하다.
트랜스덕티브 설정에서 VZSL은 유도 결과에 비해 상당한 향상을 보이며 데이터셋 간 평균 약 8% 향상을 보인다.
VAE 재구성 항이 포함된 모델 변형이 일반적으로 더 우수한 성능을 보이며 생성 구성요소의 이점을 시사한다; 마진 정규화는 비라벨 데이터가 사용될 때 판별력을 더욱 향상시킨다.
소샷 확장은 소수의 라벨링된 보이지 않는 클래스 예를 추가하면 표준 ZSL 대비 상당히 개선되며 전이 학습 시 다중 클래스 SVM 기준선을 능가할 수 있음을 보인다.
t-SNE 시각화는 VZSL이 학습한 잠재 공간이 원시 CNN 특징이나 재구성된 특징에 비해 더 구분 가능한 클래스 표현을 산출함을 보여준다.
평가 전반에 걸쳐 VZSL은 보이지 않는 클래스의 비라벨 데이터를 활용함으로써 도메인 시프트에 대한 강인성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.