Skip to main content
QUICK REVIEW

[논문 리뷰] Conditional Generative Adversarial Nets

Mehdi Mirza, Simon Osindero|arXiv (Cornell University)|2014. 11. 06.
Generative Adversarial Networks and Image Synthesis참고 문헌 15인용 수 8,878
한 줄 요약

생성기와 판별기에 조건 정보를 모두 입력하여 조건부 GAN을 도입하고, 라벨에 조건화된 MNIST 숫자 생성과 MIR Flickr 데이터에서 다중 모달 태깅을 시연한다.

ABSTRACT

Generative Adversarial Nets [8] were recently introduced as a novel way to train generative models. In this work we introduce the conditional version of generative adversarial nets, which can be constructed by simply feeding the data, y, we wish to condition on to both the generator and discriminator. We show that this model can generate MNIST digits conditioned on class labels. We also illustrate how this model could be used to learn a multi-modal model, and provide preliminary examples of an application to image tagging in which we demonstrate how this approach can generate descriptive tags which are not part of training labels.

연구 동기 및 목표

  • GAN에서 데이터 생성을 제어하기 위한 조건부를 동기부여하고 다중 모달 모델링을 탐구한다.
  • 생성 결과를 유도하기 위해 보조 정보 y를 G와 D에 통합하는 방법을 보여준다.
  • MNIST 숫자에 클래스 레이블로 조건을 둔 조건부 GAN을 시연한다.
  • 이미지 특징과 텍스트 태그를 이용한 다중 모달 학습에 대한 조건부 GAN을 시연한다.

제안 방법

  • 보조 정보 y에 대해 제너레이터와 디스크리미네이터를 모두 조건화하여 GAN을 확장한다.
  • 생성기 내에서 z(노이즈)와 y를 공동 은닉 표현으로 결합한다.
  • 디스크리미네이터에 x와 y를 입력하여 데이터 여부를 추정한다.
  • 두 플레이어의 미니맥스 목표 V(D,G) = E[x~pdata] [log D(x|y)] + E[z~pz] [log(1 - D(G(z|y)))]로 학습한다.
  • 입력에서 최종 출력으로의 매핑 전에 공유 은닉 표현으로 맵핑하기 위해 네트워크 아키텍처에서 ReLU 및 maxout 유닛을 사용한다.
  • MNIST에서 파르젠 윈도우 로그-가능도 추정으로 평가하고 MIR Flickr에서 조건부 생성으로 태그 벡터를 멀티모달 태깅으로 수행한다.
Figure 1: Conditional adversarial net
Figure 1: Conditional adversarial net

실험 결과

연구 질문

  • RQ1보조 정보 y를 조건으로 사용하면 생성 과정을 제어하여 해당 조건에 해당하는 데이터를 생성할 수 있는가?
  • RQ2조건부 GAN이 이미지 특징과 텍스트 표현으로부터 다중 모드 또는 서술적 태그 분포를 학습할 수 있는가?
  • RQ3MNIST에서 조건부가 없는 GAN에 비해 샘플 품질과 로그 가능도 추정치에 어떤 영향을 주는가?

주요 결과

모델MNIST
DBN138±2
Stacked CAE121±1.6
Deep GSN214±1.1
Adversarial nets225±2
Conditional adversarial nets132±1.8
  • 조건부 GAN은 클래스 레이블(원-핫 인코딩)로 조건화된 MNIST 숫자를 생성할 수 있다.
  • MNIST에 대한 Parzen 윈도우 로그-가능도는 조건부 네트가 MNIST에서 132±1.8을 달성한 반면 표기된 설정에서 표준 적대적 네트는 225±2였다.
  • 모델은 이미지 특징과 언어 표현에 조건화된 태그 벡터를 생성하여 다중 모달 학습 가능성의 초기 시연을 보였다.
  • MIR Flickr 예시에 대해 생성된 태그는 이미지 내용과 일치하는 그럴듯하고 다양한 설명을 보여준다.
  • 저자들은 비조건부 GAN과의 성능 차이를 보완하기 위한 추가 하이퍼파라미터 조정의 가능성을 가진 개념 증명으로 결과를 제시한다.
Figure 2: Generated MNIST digits, each row conditioned on one label
Figure 2: Generated MNIST digits, each row conditioned on one label

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.