QUICK REVIEW
[논문 리뷰] Fashion-Gen: The Generative Fashion Dataset and Challenge
Negar Rostamzadeh, Seyedarian Hosseini|ArXiv.org|2018. 06. 21.
Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 91
한 줄 요약
전문가 설명과 함께 대규모 고해상도 패션 이미지 데이터셋을 도입하고, 고해상도 이미지 생성 및 텍스트-이미지 합성에 대한 기본 결과와 커뮤니티 챌린지를 제시한다.
ABSTRACT
We introduce a new dataset of 293,008 high definition (1360 x 1360 pixels) fashion images paired with item descriptions provided by professional stylists. Each item is photographed from a variety of angles. We provide baseline results on 1) high-resolution image generation, and 2) image generation conditioned on the given text descriptions. We invite the community to improve upon these baselines. In this paper, we also outline the details of a challenge that we are launching based upon this dataset.
연구 동기 및 목표
- 전문 설명과 메타데이터를 포함한 대규모의 고품질 패션 이미지 데이터세트를 제공한다.
- 자세한 패션 설명을 조건으로 한 텍스트-이미지 합성 연구를 가능하게 한다.
- 고해상도 이미지 생성 및 텍스트 조건 생성에 대한 기초선을 제공한다.
- 패션 분야의 텍스트-이미지 생성을 발전시키기 위한 경쟁적인 챌린지를 시작한다.
제안 방법
- 다양한 각도에서 293,008장의 HD(1360x1360) 패션 이미지를 수집한 데이터세트 구성.
- 각 아이템에 대해 전문 디자이너가 설명을 제공한다.
- 점진적으로 성장하는 GAN을 사용한 고해상도 이미지 생성을 위한 기초 실험.
- 다양한 텍스트 인코더를 사용한 StackGAN-v1 및 StackGAN-v2를 이용한 텍스트-이미지 합성 실험.
- 설명과 시각적 내용의 정합성을 평가하기 위해 사전 학습된 텍스트 인코더(bi-LSTM, Transformer)를 평가했다.
실험 결과
연구 질문
- RQ1대규모 전문가 주석 데이터셋에서 텍스트 설명과 노이즈만으로도 고해상도 패션 이미지를 현실적으로 생성할 수 있는가?
- RQ2패션 아이템의 텍스트-이미지 합성에서 서로 다른 텍스트 인코딩 전략이 품질과 충실도에 어떤 영향을 미치는가?
- RQ3다각도 촬영과 풍부한 메타데이터가 생성 성능에 미치는 영향은 무엇인가?
- RQ4이 Fashion-Gen 데이터셋에서 StackGAN-v1, StackGAN-v2, 그리고 점진적으로 성장하는 GAN들이 시각적 품질과 범주 충실도 측면에서 어떻게 비교되는가?
주요 결과
| 모델 | Inception 점수 |
|---|---|
| Fashion Real data 256x256 | 9.71±2.14 |
| StackGAN-v1 (Zhang et al. 2017a) | 6.50±0.05 |
| StackGAN-v2 (Zhang et al. 2017b) | 5.54±0.07 |
| P-GAN (Karras et al. 2017) | 7.91±0.15 |
- Progressive GANs는 Fashion-Gen에서 전반적으로 높은 일관성을 갖춘 1024x1024 패션 이미지를 생성한다.
- 256x256 해상도에서의 실제 데이터에 대한 Inception 점수는 StackGAN-V1, StackGAN-V2, P-GAN 기초선보다 높고, StackGAN-V1이 StackGAN-V2보다 점수 면에서 우수하나 일부 경우 StackGAN-V2가 더 나은 시각적 품질을 제공한다.
- 사전 학습 및 bi-LSTM 텍스트 인코더를 고정하는 것이 다른 인코더보다 텍스트-이미지 결과를 더 좋게 만들었다.
- StackGAN-v1이 StackGAN-v2보다 더 높은 Inception 점수를 달성했지만 StackGAN-v2는 더 높은 품질의 이미지를 생성했으며 모드 붕괴 문제가 관찰되었다.
- 설명적 텍스트 임베딩이 생성된 패션 이미지의 품질과 충실도에 큰 영향을 미친다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.