[논문 리뷰] TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
TediGAN은 다중 모달 입력에 대한 GAN 역출력을 학습하고 StyleGAN의 잠재 공간에서 시각적·언어 임베딩을 정렬하며 인스턴스 수준 최적화를 적용해 아이덴티티 보존을 달성, 고품질 1024x1024 결과 및 다중 모달 합성을 가능하게 합니다.
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
연구 동기 및 목표
- 고품질, 유연한 텍스트 지향 얼굴 생성 및 조작의 필요성에 대한 동기 부여.
- 한 모델에서 텍스트로부터 생성과 조작을 모두 지원하는 통합 프레임워크 개발.
- Semantic한 편집을 위한 StyleGAN의 잠재 공간으로 real 이미지를 매핑하기 위한 GAN 역출력 도입.
- 시각적 및 언어 표현을 공통 공간에서 정렬하는 크로스-모달 임베딩 학습.
- 인스턴스 수준 최적화를 통한 조작 중 아이덴티티 보존
제안 방법
- 실제 이미지를 StyleGAN의 W 잠재 공간으로 매핑하기 위한 StyleGAN 역출력 모듈(픽셀 및 의미 수준 재구성 손실 포함).
- 레이어별 잠재 코드와 함께 이미지와 텍스트를 공통의 W-공간으로 투사하는 시각-언어 유사성 학습.
- 엔코더의 의미 도메인으로 규제하며 역출력 코드를 다듬기 위한 인스턴스 수준 최적화.
- 생성과 조작을 달성하기 위한 StyleGAN 레이어를 선택적으로 교환하는 스타일-믹싱 기반 제어 메커니즘.
- 스케치, 레이블, 이미지 등 다중 모달 입력을 스타일 코드로 간주하고 레이어별 믹싱 적용으로 다중 모달 입력 지원.
- 멀티-모달 CelebA-HQ 데이터셋(이미지, 분할 맵, 스케치, 텍스트 설명 포함)으로 학습 및 평가 제안
실험 결과
연구 질문
- RQ1단일 프레임워크가 고해상도에서 텍스트 기반 이미지 생성과 조작을 함께 수행할 수 있는가?
- RQ2텍스트, 스케치, 레이블 등 다중 모달 입력을 제어 가능한 합성을 위한 공유 잠재 공간에 어떻게 통합할 것인가?
- RQ3인스턴스 수준 최적화가 텍스트 가이드 조작 중 아이덴티티 보존에 미치는 영향은 무엇인가?
- RQ4다중 모달로 텍스트- 및 모달리티 기반 합성을 반영하는 데이터셋과 평가 지표는 무엇인가?
주요 결과
| Method | FID | LPIPS | Acc. | Real. |
|---|---|---|---|---|
| AttnGAN | 125.98 | 0.512 | 14.2 | 20.3 |
| ControlGAN | 116.32 | 0.522 | 18.2 | 22.5 |
| DFGAN | 137.60 | 0.581 | 22.8 | 25.5 |
| DM-GAN | 131.05 | 0.544 | 19.5 | 12.8 |
| TediGAN | 106.37 | 0.456 | 25.3 | 31.7 |
- 해상도 1024^2에서 다양하고 고품질의 얼굴 이미지를 달성.
- Multi-Modal CelebA-HQ에서 FID, LPIPS, 정확도 및 현실감 면에서 텍스트-이미지 생성에서 최첨단을 능가.
- 텍스트-가이드 이미지 조작에서 FID, 정확도 및 현실감 면에서 ManiGAN을 능가.
- 입력 모달리티를 통한 스타일-믹싱을 통해 다중 모달 합성이 효과적으로 나타남.
- 레이어별 분석이 StyleGAN 계층 구조와 고수준/세부 속성의 정렬에 기여함.
- 텍스트 및 모달리티 가이드를 위한 연구를 가능하게 하는 Multi-Modal CelebA-HQ 데이터셋 도입
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.