Skip to main content
QUICK REVIEW

[論文レビュー] Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

Seunghoon Hong, Dingdong Yang|arXiv (Cornell University)|Jan 16, 2018
Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 45
ひとこと要約

論文は、まずテキストから意味的レイアウト(境界ボックスと形状)を推定し、そのレイアウトを条件とする画像生成を行う階層型のテキストから画像合成フレームワークを提案しており、MS-COCOにおける意味的整合性と解釈性を向上させます。

ABSTRACT

We propose a novel hierarchical approach for text-to-image synthesis by inferring semantic layout. Instead of learning a direct mapping from text to image, our algorithm decomposes the generation process into multiple steps, in which it first constructs a semantic layout from the text by the layout generator and converts the layout to an image by the image generator. The proposed layout generator progressively constructs a semantic layout in a coarse-to-fine manner by generating object bounding boxes and refining each box by estimating object shapes inside the box. The image generator synthesizes an image conditioned on the inferred semantic layout, which provides a useful semantic structure of an image matching with the text description. Our model not only generates semantically more meaningful images, but also allows automatic annotation of generated images and user-controlled generation process by modifying the generated scene layout. We demonstrate the capability of the proposed model on challenging MS-COCO dataset and show that the model can substantially improve the image quality, interpretability of output and semantic alignment to input text over existing approaches.

研究の動機と目的

  • 一般的なテキスト説明から複雑で現実的な画像を生成する課題に動機づけ、対応する。
  • テキストからレイアウトへとレイアウトから画像合成をデカップリングする意味的レイアウトベースの生成パイプラインを導入する。
  • オブジェクトレベルのレイアウトを予測することで細粒度の制御と自動アノテーションを可能にする。
  • MS-COCOで従来のテキストから画像への手法よりも意味的忠実度と画像品質の改善を示す。

提案手法

  • テキストからオブジェクトの境界ボックスとラベルを自回帰的に予測するボックス生成器と、各オブジェクトのマスクをボックス内で洗練する形状生成器の2段階のレイアウト生成を用いる。
  • インスタンスマスクを集約して意味的ラベルマップを構築し、それを画像生成器の指針とする。
  • ボックスとマスクの監視付き損失(ボックスとラベルにはNLL、マスクには敵対的・知覚損失)で、インスタンス単位および全体のレイアウト整合性を強化する。
  • 推定された意味的レイアウトと入力テキストの両方を条件に、テキストに対するアテンションを持つ cascaded encoder-decoder と、レイアウトも受け取るディスクリミネータを用いて生成を行う。
  • 知覚的損失を活用してGAN訓練を安定化させ、オブジェクト形状を改善する。推定レイアウトを変更することで対話的なコントロールを可能にする。

実験結果

リサーチクエスチョン

  • RQ1テキストから意味的レイアウトを明示的に推定することは、複雑なシーンのテキストから画像合成の品質と解釈性を向上させるか。
  • RQ2推定レイアウトを条件に画像生成を行うと、直接的なテキストから画像への手法より入力テキストと整合した画像が得られるか。
  • RQ3境界ボックスとマスクの予測は、画像の忠実性と意味的一致にどの程度寄与するか。
  • RQ4推定レイアウトは制御可能な生成と生成コンテンツの自動アノテーションを支援できるか。

主な発見

方法マスクBLEU-1BLEU-2BLEU-3BLEU-4METEORCIDEr
Reed et al.--0.4700.2530.1360.0770.1220.160
StackGAN--0.4920.2720.1520.0890.1280.195
OursPred.Pred.0.5410.3320.1990.1220.1540.367
Ours (control experiment)GTPred.0.5560.3530.2190.1390.1620.400
GTGTGT0.5730.3730.2390.1560.1690.440
Real images (upper bound)--0.6780.4960.3490.2430.2280.802
  • 提案手法は、MS-COCOにおける従来のGANベースのテキストから画像へのアプローチよりInceptionスコアを大幅に改善した。
  • キャプションベースの評価では、生成画像が入力テキストへの関連性がベースラインより高い。
  • 人間評価では、提案手法の画像がテキストに対する関連性で最も良いと評価される割合が高い(タスクの約60%)。
  • 予測レイアウトをグラウンドトゥルースレイアウトと置換したアブレーションは、レイアウト品質が画像生成に影響を与えることを段階的に示した。
  • モデルは、明示的なレイアウト条件付けを活用することで、より認識しやすく意味的に意味のある画像を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。