[논문 리뷰] TAC-GAN - Text Conditioned Auxiliary Classifier Generative Adversarial Network
TAC-GAN은 텍스트 설명으로부터 텍스트 임베딩에 조건을 걸고 판별기에 보조 분류기를 활용하여 이미지를 생성하며, 기존의 텍스트-이미지 모델보다 더 높은 판별 가능성과 다양성을 달성한다.
In this work, we present the Text Conditioned Auxiliary Classifier Generative Adversarial Network, (TAC-GAN) a text to image Generative Adversarial Network (GAN) for synthesizing images from their text descriptions. Former approaches have tried to condition the generative process on the textual data; but allying it to the usage of class information, known to diversify the generated samples and improve their structural coherence, has not been explored. We trained the presented TAC-GAN model on the Oxford-102 dataset of flowers, and evaluated the discriminability of the generated images with Inception-Score, as well as their diversity using the Multi-Scale Structural Similarity Index (MS-SSIM). Our approach outperforms the state-of-the-art models, i.e., its inception score is 3.45, corresponding to a relative increase of 7.8% compared to the recently introduced StackGan. A comparison of the mean MS-SSIM scores of the training and generated samples per class shows that our approach is able to generate highly diverse images with an average MS-SSIM of 0.14 over all generated classes.
연구 동기 및 목표
- 텍스트 설명으로부터 다양하고 판별 가능한 이미지를 생성하도록 동기를 부여한다.
- 구조와 내용의 일관성을 향상시키기 위해 보조 분류기를 통해 텍스트 임베딩을 GAN 프레임워크에 통합한다.
- Oxford-102 꽃에서 Inception Score와 MS-SSIM을 사용하여 합성 품질과 다양성을 평가한다.
- 제어 가능한 생성을 보여주기 위해 텍스트 간 보간 및 스타일/콘텐츠 분리(disentanglement)를 시연한다.
제안 방법
- 생성기를 클래스 레이블 대신 텍스트 임베딩(Skip-Thought)으로 조건화하여 AC-GAN을 확장한다.
- 텍스트를 텍스트 임베딩 Ψ(t)로 표현하고 잠재 텍스트 표현 lg=LG(Ψ(t))를 학습해 노이즈 벡터 z와 연결(concatenate)한다.
- zc = [lg; z]를 통해 전치 합성곱으로 128x128x3 이미지를 출력하는 생성기 G를 구성한다.
- 실제, 가짜, 잘못된 이미지 삼중항과 대응하는 텍스트 임베딩 및 클래스 레이블과 함께 받는 판별기 D를 설계하고 DS(실제/가짜)와 DC(클래스) 출력을 생성한다.
- 판별기에 대해 LDS 및 LCD 손실로, 생성기에 대해 LGS 및 LGC 손실로 학습하여 현실적이고 올바르게 라벨링된 출력을 장려한다.
- 추가 정보를 포함하도록 프레임워크를 확장하는 것을 선택적으로 가능하게 하여 새로운 판별기 출력 DL_Y 및 해당 손실을 추가한다.
실험 결과
연구 질문
- RQ1TAC-GAN이 텍스트 설명에 충실하면서도 판별 가능한 이미지를 생성할 수 있는가?
- RQ2보조 분류기가 있는 텍스트 임베딩 조건부가 이전의 텍스트-이미지 방법들에 비해 이미지 품질과 다양성을 향상시키는가?
- RQ3Inception Score 및 다양성 지표 측면에서 TAC-GAN이 StackGAN 및 다른 기준선과 어떻게 비교되는가?
- RQ4텍스트와 스타일 간 보간으로 생성된 이미지의 일관된 변화를 만들어낼 수 있는가?
주요 결과
| 모델 | Inception Score |
|---|---|
| TAC-GAN | 3.45±0.05 |
| StackGan | 3.20±0.01 |
| GAN-INT-CLS | 2.66±0.03 |
- TAC-GAN의 Inception Score는 3.45±0.05로 StackGAN의 3.20±0.01 및 GAN-INT-CLS의 2.66±0.03보다 높다.
- TAC-GAN은 다양한 샘플을 달성하며, 생성된 모든 클래스에 대한 평균 MS-SSIM이 0.13±0.016으로 학습 데이터 평균 0.14±0.019에 근접하고 일부 기준선보다 더 높은 다양성을 보인다.
- 모델은 서로 다른 노이즈 벡터와 텍스트 임베딩에 대한 콘텐츠 보존 보간으로 내용/스타일 분리를 보여준다.
- 평균 MS-SSIM 비교는 생성된 샘플이 총괄적으로 학습 데이터보다 더 다양한 것을 보여주며 다양성 주장을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.