Skip to main content
QUICK REVIEW

[論文レビュー] Generative Adversarial Text to Image Synthesis

Scott Reed, Zeynep Akata|arXiv (Cornell University)|May 17, 2016
Generative Adversarial Networks and Image Synthesis参考文献 37被引用数 1,424
ひとこと要約

本論文は自然言語記述から画像を生成するテキスト条件付き GAN アーキテクチャを提案し、鳥と花に対するゼロショットおよび細粒度合成を実証し、マッチング認識型判別器と補間ベースの正則化を備える。

ABSTRACT

Automatic synthesis of realistic images from text would be interesting and useful, but current AI systems are still far from this goal. However, in recent years generic and powerful recurrent neural network architectures have been developed to learn discriminative text feature representations. Meanwhile, deep convolutional generative adversarial networks (GANs) have begun to generate highly compelling images of specific categories, such as faces, album covers, and room interiors. In this work, we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image model- ing, translating visual concepts from characters to pixels. We demonstrate the capability of our model to generate plausible images of birds and flowers from detailed text descriptions.

研究の動機と目的

  • 人間が書いた説明から画像を生成して、テキストと画像のモダリティを橋渡しする。
  • 画像合成の判別的特徴を提供するテキストエンコーダを開発する。
  • テキストで条件付けられた、妥当でクラス一貫性のある画像を生成する GAN フレームワークを作成する。
  • 学習を安定化させるトレーニング手法を用いて、テキスト条件付き画像生成におけるモードの多様性に対処する。

提案手法

  • ハイブリッドな文字レベルの CNN-RNN エンコーダで生成されたテキスト埋め込みを条件とする DCGAN アーキテクチャを用いる。
  • マッチング認識型判別器(GAN-CLS)を導入し、対応する画像・非対応・生成対を用いてテキストと画像の適合性も評価する。
  • テキスト埋め込み間の補間を行い、データ多様体を網羅するよう生成器を促す多様体補間正則化(GAN-INT)を追加する。
  • 両者を組み合わせて(GAN-INT-CLS)、現実性とテキスト整合性を向上させる。
  • 任意で生成器を反転させ、スタイル転送を可能にするスタイルエンコーダを学習して画像を生成器のノイズベクトルへ写像する。

実験結果

リサーチクエスチョン

  • RQ1テキスト条件付き GAN は、鳥や花のような細粒度カテゴリに対して、画像の現実性とテキストと画像の整列を同時にモデル化できるか?
  • RQ2テキスト記述を条件とする場合、マッチング認識型判別が合成の改善につながるか?
  • RQ3テキスト埋め込み空間(多様体補間)での補間は、サンプル品質と多様性を高めるか?
  • RQ4ゼロショットのテキストから画像生成およびMS COCOのような複数オブジェクトシーンへ一般化できるか?

主な発見

  • 本モデルは鳥と花について、テキストを条件にした妥当な 64x64 の画像を合成できる。
  • GAN-INT および GAN-INT-CLS は、ベースラインの GAN および GAN-CLS と比べて、視覚的妥当性とキャプション整合性を大幅に向上させる。
  • マッチング認識型判別器(GAN-CLS)は、学習を助ける明示的なテキスト画像適合性信号を提供する。
  • テキスト埋め込み間の補間(GAN-INT)はデータ多様体をカバーするのに役立ち、ゼロショットカテゴリを含む結果を改善する。
  • 本手法は複数オブジェクトと多様な背景を持つ MS COCO 画像にも一般化し、定性的な結果を示す。
  • スタイルと内容を分離することが可能で、実画像から潜在スタイルを推定してスタイル転送を実現できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。