QUICK REVIEW

[论文解读] Fashion-Gen: The Generative Fashion Dataset and Challenge

Negar Rostamzadeh, Seyedarian Hosseini|ArXiv.org|Jun 21, 2018

Generative Adversarial Networks and Image Synthesis参考文献 30被引用 91

一句话总结

引入一个大型高清时尚图像数据集，附专家描述，并给出高分辨率图像生成和文本到图像合成的基线结果，以及一个社区挑战。

ABSTRACT

We introduce a new dataset of 293,008 high definition (1360 x 1360 pixels) fashion images paired with item descriptions provided by professional stylists. Each item is photographed from a variety of angles. We provide baseline results on 1) high-resolution image generation, and 2) image generation conditioned on the given text descriptions. We invite the community to improve upon these baselines. In this paper, we also outline the details of a challenge that we are launching based upon this dataset.

研究动机与目标

提供一个大规模、高质量的时尚图像数据集，附专业描述和元数据。
使研究在基于详细时尚描述的文本到图像合成方面可行。
提供高分辨率图像生成和条件生成的基线。
启动一个具有竞争性的挑战，推动时尚领域的文本到图像生成。

提出的方法

使用来自多个角度的293,008张HD (1360x1360) 时尚图像的数据集收集。
每件物品由专业设计师提供描述。
使用渐进式生长GAN的基线实验来生成高分辨率图像。
使用StackGAN-v1和StackGAN-v2进行文本到图像合成实验，并采用各种文本编码器。
评估预训练文本编码器（双向LSTM，Transformer）在描述与视觉之间对齐的效果。

实验结果

研究问题

RQ1是否可以在大型、专家注释的数据集上仅从文本描述和噪声生成高分辨率时尚图像？
RQ2不同文本编码策略如何影响时尚项目的文本到图像合成的质量和保真度？
RQ3多角度拍摄和丰富元数据对生成性能有何影响？
RQ4在Fashion-Gen数据集上，StackGAN-v1、StackGAN-v2和渐进式GAN在视觉质量和类别保真度方面的比较？

主要发现

模型	Inception 得分
时尚真实数据 256x256	9.71±2.14
StackGAN-v1 (Zhang et al. 2017a)	6.50±0.05
StackGAN-v2 (Zhang et al. 2017b)	5.54±0.07
P-GAN (Karras et al. 2017)	7.91±0.15

渐进式GAN在Fashion-Gen上生成1024x1024的时尚图像，全球一致性高。
真实数据256x256的Inception分数高于StackGAN-V1、StackGAN-V2和P-GAN基线，StackGAN-V1在分数上优于StackGAN-V2，但StackGAN-V2在某些情况下提供更高的视觉质量。
进行预训练并固定一个bi-LSTM文本编码器，在文本到图像结果方面优于其他测试编码器。
StackGAN-v1取得的Inception分数高于StackGAN-v2，但StackGAN-v2生成的图像质量更高，同时存在模式塌陷挑战。
描述性文本嵌入显著影响生成时尚图像的质量和保真度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。