Skip to main content
QUICK REVIEW

[論文レビュー] MirrorGAN: Learning Text-to-image Generation by Redescription

Tingting Qiao, Jing Zhang|arXiv (Cornell University)|Mar 14, 2019
Multimodal Machine Learning Applications参考文献 42被引用数 72
ひとこと要約

MirrorGANは、テキスト→画像→テキストフレームワーク(STEM、GLAM、STREAM)を導入し、グローバル局所アテンションと再構成損失を用いて、テキストと生成画像の意味的一貫性を向上させ、CUBとCOCOで最先端の成果を達成します。

ABSTRACT

Generating an image from a given text description has two goals: visual realism and semantic consistency. Although significant progress has been made in generating high-quality and visually realistic images using generative adversarial networks, guaranteeing semantic consistency between the text description and visual content remains very challenging. In this paper, we address this problem by proposing a novel global-local attentive and semantic-preserving text-to-image-to-text framework called MirrorGAN. MirrorGAN exploits the idea of learning text-to-image generation by redescription and consists of three modules: a semantic text embedding module (STEM), a global-local collaborative attentive module for cascaded image generation (GLAM), and a semantic text regeneration and alignment module (STREAM). STEM generates word- and sentence-level embeddings. GLAM has a cascaded architecture for generating target images from coarse to fine scales, leveraging both local word attention and global sentence attention to progressively enhance the diversity and semantic consistency of the generated images. STREAM seeks to regenerate the text description from the generated image, which semantically aligns with the given text description. Thorough experiments on two public benchmark datasets demonstrate the superiority of MirrorGAN over other representative state-of-the-art methods.

研究の動機と目的

  • T2I生成における視覚的リアリズムと意味的一貫性のギャップに対処する。
  • 入力テキストと整合するよう画像の再説明を強制することによる二重正則化の考えを活用する。
  • 跨モーダル意味整合を改善する統一的なT2I–I2Tフレームワークを提案する。
  • 連鎖生成器内にグローバル-ローカル協調アテンション機構を導入する。
  • CEベースのテキスト意味再構成損失で訓練を正則化する。

提案手法

  • 条件付け拡張を備えた word- および sentence-level のテキスト埋め込みを得るために STEM を導入する。
  • 各段階で Attn_w(単語)と Attn_s(文)を組み合わせるグローバル-ローカルアテンションを備えた階層型多段生成器として GLAM を用いる。
  • 生成画像からテキスト記述を再生成する STREAM を取り入れ、クロスエントロピー損失により意味を整合させる。
  • 視覚的リアリズムとテキスト-画像対の意味的一貫性という2つの敵対的損失、および CE ベースのテキスト意味再構成損失(L_stream)で訓練する。
  • 各段の損失と L_stream を合計する目的関数で段階間の生成器を最適化し、識別器は実画像と偽画像および意味的一貫性を区別するよう学習する。

実験結果

リサーチクエスチョン

  • RQ1テキスト→画像モデルは、入力記述との意味的一致を確保するために逆のテキスト生成(I2T)を課すことで利益を得られるか。
  • RQ2グローバル-ローカルアテンション cascades は、単語レベルのアテンションだけよりも意味的一貫性と多様性を改善するか。
  • RQ3クロスモーダル再構成損失は、画像リアリズムを犠牲にせずに意味的整合を改善するか。
  • RQ4STREAMをGLAMに統合することは標準的なT2Iベンチマークにどのような影響を与えるか。
  • RQ5MirrorGANはCUBとCOCOで、Inception ScoreとR-precisionの点で最先端メソッドと比較してどのような性能を示すか。

主な発見

ModelCUB_InceptionCOCO_InceptionCUB_R1CUB_R2CUB_R3COCO_R1COCO_R2COCO_R3
GAN-INT-CLS2.88 ±0.047.88 ±0.0753.3154.1154.3672.1373.2176.53
GAWWN3.62 ±0.07-------
StackGAN3.70 ±0.048.45 ±0.03------
StackGAN++3.82 ±0.06-------
PPGN-9.58 ±0.21------
AttnGAN4.36 ±0.0325.89 ±0.47------
MirrorGAN4.56 ±0.0526.47 ±0.41------
MirrorGAN (combined)--------
  • MirrorGANはCUBとCOCOの両方で最先端の方法より高いInception Scoreを達成(CUB: 4.56; COCO: 26.47)。
  • MirrorGANはAttnGANをR-precisionにおいて、上位1位/2位/3位の設定で上回る(CUB: 57.67/58.52/60.42; COCO: 74.52/76.87/80.21)。
  • STREAMとGLAMの組み合わせは、単語アテンションベースラインおよび従来手法よりも顕著な改善をもたらし、新しい最先端の結果を確立する。
  • アブレーションでは、損失重みlambdaの増加がInception ScoreとR-precisionの両方を改善し、lambda=20はCOCOで強力な性能を提供(Inception 26.47; R-precision 74.52)。
  • 定性的および人間知覚研究は、MirrorGANがAttnGANより意味的に一貫し本物らしい画像を生成し、入力記述との整合性が向上していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。