QUICK REVIEW
[論文レビュー] Fashion-Gen: The Generative Fashion Dataset and Challenge
Negar Rostamzadeh, Seyedarian Hosseini|ArXiv.org|Jun 21, 2018
Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 91
ひとこと要約
専門家による説明とペアリングされた巨大な高解像度ファッション画像データセットを紹介し、高解像度画像生成とテキストから画像生成のベースライン結果を提示するとともに、コミュニティチャレンジを実施する。
ABSTRACT
We introduce a new dataset of 293,008 high definition (1360 x 1360 pixels) fashion images paired with item descriptions provided by professional stylists. Each item is photographed from a variety of angles. We provide baseline results on 1) high-resolution image generation, and 2) image generation conditioned on the given text descriptions. We invite the community to improve upon these baselines. In this paper, we also outline the details of a challenge that we are launching based upon this dataset.
研究の動機と目的
- ファッション画像の大規模で高品質なデータセットを、専門的な説明とメタデータとともに提供する。
- 詳細なファッション説明に条件づけられたテキストから画像への合成に関する研究を可能にする。
- 高解像度画像生成とテキスト条件付き生成のベースラインを提供する。
- ファッション分野のテキストから画像生成を進化させる競争的チャレンジを開始する。
提案手法
- 複数の角度からの293,008枚のHD(1360x1360)ファッション画像を収集したデータセット作成。
- 各アイテムについてプロのデザイナーによる説明が提供される。
- 高解像度画像生成のためのProgressive Growing GANを用いたベースライン実験。
- さまざまなテキストエンコーダを用いたStackGAN-v1およびStackGAN-v2によるテキストから画像生成の実験。
- 事前学習済みのテキストエンコーダ(bi-LSTM、Transformer)を、説明と視覚情報の整合性の観点から評価。
実験結果
リサーチクエスチョン
- RQ1大規模で専門家が注釈付けしたデータセットに対して、テキスト説明とノイズのみから高解像度のファッション画像を現実的に生成できるか。
- RQ2ファッションアイテムのテキストから画像への合成における品質と忠実度に、さまざまなテキストエンコーディング戦略がどう影響するか。
- RQ3複数の角度の写真撮影と豊富なメタデータが生成性能に与える影響は何か。
- RQ4このFashion-Genデータセットにおいて、StackGAN-v1、StackGAN-v2、Progressive GANは視覚品質とカテゴリ忠実度の点でどう比較されるか。
主な発見
| モデル | Inceptionスコア |
|---|---|
| Fashion Real data 256x256 | 9.71±2.14 |
| StackGAN-v1 (Zhang et al. 2017a) | 6.50±0.05 |
| StackGAN-v2 (Zhang et al. 2017b) | 5.54±0.07 |
| P-GAN (Karras et al. 2017) | 7.91±0.15 |
- Progressive GANはFashion-Gen上で高い全体的一貫性を持つ1024x1024のファッション画像を生成する。
- 256x256の実データのInceptionスコアは、StackGAN-v1、StackGAN-v2、P-GANのベースラインより高く、StackGAN-v1がStackGAN-v2を上回るスコアだが、StackGAN-v2は場合によってより高い視覚品質を提供する。
- 事前学習とbi-LSTMテキストエンコーダの固定化は、他のエンコーダよりも優れたテキストから画像生成結果をもたらした。
- StackGAN-v1はStackGAN-v2より高いInceptionスコアを達成したが、StackGAN-v2はより高品質な画像を生成する一方でモード崩壊の課題が観察された。
- 記述的なテキスト埋め込みは、生成されたファッション画像の品質と忠実度に大きく影響する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。