Skip to main content
QUICK REVIEW

[論文レビュー] Controllable Text-to-Image Generation

Bowen Li, Xiaojuan Qi|arXiv (Cornell University)|Sep 16, 2019
Generative Adversarial Networks and Image Synthesis被引用数 79
ひとこと要約

ControlGAN は word-level channel-wise and spatial attention、a word-level discriminator、and perceptual loss を導入し、自然言語で指示された属性特定の画像操作を可能にし、CUB と COCO で最先端を上回る。

ABSTRACT

In this paper, we propose a novel controllable text-to-image generative adversarial network (ControlGAN), which can effectively synthesise high-quality images and also control parts of the image generation according to natural language descriptions. To achieve this, we introduce a word-level spatial and channel-wise attention-driven generator that can disentangle different visual attributes, and allow the model to focus on generating and manipulating subregions corresponding to the most relevant words. Also, a word-level discriminator is proposed to provide fine-grained supervisory feedback by correlating words with image regions, facilitating training an effective generator which is able to manipulate specific visual attributes without affecting the generation of other content. Furthermore, perceptual loss is adopted to reduce the randomness involved in the image generation, and to encourage the generator to manipulate specific attributes required in the modified text. Extensive experiments on benchmark datasets demonstrate that our method outperforms existing state of the art, and is able to effectively manipulate synthetic images using natural language descriptions. Code is available at https://github.com/mrlibw/ControlGAN.

研究の動機と目的

  • 微細な制御可能なテキストから画像生成の必要性を動機づける。
  • 関連性のない内容を変更せずに特定の視覚属性を変更できるフレームワークを提案する。
  • 単語レベルおよびチャネルレベルの注意機構を用いて視覚属性を分離する。
  • パーセプチュアル損失を用いて乱数性を低減し、未変更の内容を保持する。)

提案手法

  • 属性を分離するために word-level の空間的・チャネル-wise 注意を備えた多段階生成器を導入する。
  • 単語レベルの判別器を提案し、単語と画像サブ領域を結びつけて細かなフィードバックを提供する。
  • 未変更の内容と意味的に整合するように生成画像を制約するためにパーセプチュアル損失を採用する。
  • 各段階で敵対的、テキスト-画像相関、パーセプチュアル、および DAMSM ベースの損失を組み合わせて訓練する。
  • CUB と COCO で StackGAN++ および AttnGAN に対して評価を行い、定量的および定性的分析を行う。)

実験結果

リサーチクエスチョン

  • RQ1ControlGAN は、関連性のない内容を変更せずに、テキストを条件に特定の視覚属性を分離・操作できるか?
  • RQ2チャネル-wise 注意は、属性制御のための単語と画像チャネル間の整合性を改善するか?
  • RQ3単語レベルの判別器は、制御性と画像品質を向上させる、より細かなフィードバックを提供するか?
  • RQ4テキスト誘導編集時に、パーセプチュアル損失が乱雑さを減らし未変更内容を保持する影響は何か?

主な発見

  • ControlGAN は CUB で StackGAN++ および AttnGAN と比較して Inception Score および R-precision が高い。
  • ControlGAN は COCO で競争力のある Inception Scores と R-precision を示し、しばしば再構成誤差が低い。
  • 両データセットで ControlGAN の L2 再構成誤差が最も小さく、未変更内容の保持がより良いことを示す。
  • 定性的結果は、変更されたテキストと一致する制御可能な属性操作を示しつつ、他の内容を保持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。