[논문 리뷰] Zero-Shot Learning via Class-Conditioned Deep Generative Models
제로샷 학습을 위한 각 클래스가 감독 VAE에 대해 클래스 조건부 잠재 가우시안 사전으로 표현되는 심층 생성 모델을 도입하고, 테스트 잠재 포스트에 보이지 않는 클래스 사전에 매칭함으로써 유도(inductive), 트랜스덕티브(transductive), 및 소샷 ZSL을 가능하게 한다.
We present a deep generative model for learning to predict classes not seen at training time. Unlike most existing methods for this problem, that represent each class as a point (via a semantic embedding), we represent each seen/unseen class using a class-specific latent-space distribution, conditioned on class attributes. We use these latent-space distributions as a prior for a supervised variational autoencoder (VAE), which also facilitates learning highly discriminative feature representations for the inputs. The entire framework is learned end-to-end using only the seen-class training data. The model infers corresponding attributes of a test image by maximizing the VAE lower bound; the inferred attributes may be linked to labels not seen when training. We further extend our model to a (1) semi-supervised/transductive setting by leveraging unlabeled unseen-class data via an unsupervised learning module, and (2) few-shot learning where we also have a small number of labeled inputs from the unseen classes. We compare our model with several state-of-the-art methods through a comprehensive set of experiments on a variety of benchmark data sets.
연구 동기 및 목표
- 보지 않은 클래스에 대한 라벨 데이터가 이용 불가능하거나 희박한 상황에서 제로샷 학습의 필요성을 제시한다.
- 각 클래스를 클래스 속성에 조건화된 잠재 공간 분포로 표현하여 클래스 내 변이성을 포착한다.
- 클래스 조건부 사전을 사용하여 보이지 않는 클래스를 인식하는 감독된 VAE 프레임워크를 개발한다.
- 비라벨 데이터와 소수의 라벨이 있는 보이지 않는 클래스 예시를 활용하여 반지도학/트랜스덕티브 및 소샷 설정으로 모델을 확장한다.
- 보여진 클래스 데이터만으로(선택적 비라벨 데이터 포함) 엔드-투-엔드 학습을 수행하여 판별적 잠재 표현을 학습한다.
제안 방법
- μ(a)=W_μ a 그리고 Σ(a)=diag(exp(W_σ a))인 클래스 조건부 잠재 가우시안 사전 p_ψ(z|a)를 정의한다.
- q_φ(z|x)를 사용한 변분 하한을 이용해 E_{q}[log p_θ(x|z)] - KL(q_φ(z|x)||p_ψ(z|a))를 최대화한다.
- q_φ(z|x)가 실제 클래스 사전 p_ψ(z|a)에 가깝고 다른 클래스 사전과는 멀도록 마진 정규화를 도입하며, 이는 softmax 기반의 대리손실로 근사한다.
- 비라벨 데이터 정규화를 추가하여 보이지 않는 클래스 예측을 KL 발산 간의 차이를 통해 선명하게 만들어 트랜스덕티브 ZSL로 확장한다.
- 보이지 않는 클래스의 라벨링된 예를 포함하고 이 추가 샘플들에 대해 동일한 목적함수를 최적화함으로써 소샷 학습을 가능하게 한다.
- AwA, CUB-200, SUN, 및 ImageNet에서 VGG-19 fc7 특징을 사용하고, 해당되는 경우 ImageNet용 word2vec 임베딩을 활용하여 실험적으로 평가한다.
실험 결과
연구 질문
- RQ1VAE의 클래스 조건부 잠재 분포가 클래스 내 변이성을 포착하고 보이지 않는 클래스에 대한 정확한 ZSL을 가능하게 할 수 있는가?
- RQ2비라벨 데이터(트랜스덕티브 설정)를 통합하는 것이 순수한 유도 접근법에 비해 제로샷 및 소샷 성능을 향상시키는가?
- RQ3마진 기반 정규화가 잠재 공간의 클래스 판별과 최종 예측에 어떤 영향을 미치는가?
- RQ4VAE 목표에서 재구성 항이 데이터셋 전반의 ZSL 성능에 미치는 영향은 무엇인가?
- RQ5본 방법이 대규모 데이터셋(예: ImageNet)으로 확장될 수 있으며 서로 다른 시맨틱 표현(속성 vs. 워드 벡터)을 활용할 수 있는가?
주요 결과
- 제안된 VZSL 방법은 소규모 데이터세트(AwA, CUB-200, SUN)와 대규모 ImageNet에서 유도 ZSL로 최첨단 기준선보다 우수하다.
- 트랜스덕티브 설정에서 VZSL은 유도 결과에 비해 상당한 향상을 보이며 데이터셋 간 평균 약 8% 향상을 보인다.
- VAE 재구성 항이 포함된 모델 변형이 일반적으로 더 우수한 성능을 보이며 생성 구성요소의 이점을 시사한다; 마진 정규화는 비라벨 데이터가 사용될 때 판별력을 더욱 향상시킨다.
- 소샷 확장은 소수의 라벨링된 보이지 않는 클래스 예를 추가하면 표준 ZSL 대비 상당히 개선되며 전이 학습 시 다중 클래스 SVM 기준선을 능가할 수 있음을 보인다.
- t-SNE 시각화는 VZSL이 학습한 잠재 공간이 원시 CNN 특징이나 재구성된 특징에 비해 더 구분 가능한 클래스 표현을 산출함을 보여준다.
- 평가 전반에 걸쳐 VZSL은 보이지 않는 클래스의 비라벨 데이터를 활용함으로써 도메인 시프트에 대한 강인성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.