Skip to main content
QUICK REVIEW

[論文レビュー] DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

Minfeng Zhu, Pingbo Pan|arXiv (Cornell University)|Apr 2, 2019
Generative Adversarial Networks and Image Synthesis参考文献 33被引用数 45
ひとこと要約

DM-GAN は、動的メモリモジュールを導入し、メモリ書込みゲートと応答ゲートで初期の低品質画像をテキスト条件付きの高解像度画像に洗練し、CUBとCOCOデータセットで従来手法を上回っている。

ABSTRACT

In this paper, we focus on generating realistic images from text descriptions. Current methods first generate an initial image with rough shape and color, and then refine the initial image to a high-resolution one. Most existing text-to-image synthesis methods have two main problems. (1) These methods depend heavily on the quality of the initial images. If the initial image is not well initialized, the following processes can hardly refine the image to a satisfactory quality. (2) Each word contributes a different level of importance when depicting different image contents, however, unchanged text representation is used in existing image refinement processes. In this paper, we propose the Dynamic Memory Generative Adversarial Network (DM-GAN) to generate high-quality images. The proposed method introduces a dynamic memory module to refine fuzzy image contents, when the initial images are not well generated. A memory writing gate is designed to select the important text information based on the initial image content, which enables our method to accurately generate images from the text description. We also utilize a response gate to adaptively fuse the information read from the memories and the image features. We evaluate the DM-GAN model on the Caltech-UCSD Birds 200 dataset and the Microsoft Common Objects in Context dataset. Experimental results demonstrate that our DM-GAN model performs favorably against the state-of-the-art approaches.

研究の動機と目的

  • マルチステージのテキストから画像への合成における初期画像品質への依存に対処する。
  • キャプション内の語の重要度が異なることをリファインメント中に扱う。
  • 関連するテキストをメモリに書き込み読み出して画像を洗練する動的メモリモジュールを提案する。

提案手法

  • 標準のジェネレーターを用いてテキストから初期画像を生成する。
  • キー-バリュー記憶を用いた動的メモリリファインメント段階を適用する:メモリ書き込みゲートを介して単語をメモリに書き込む。
  • キーアドレッシングと値読み出しを用いてメモリから出力を得る。
  • 応答ゲートを通じてメモリ出力を画像特徴と融合し適応的な洗練を行う。
  • 敵対的損失、条件付け拡張損失、および DAMSM 損失で訓練する。
  • 64x64 の初期画像を 128x128 および 256x256 に拡大し、メモリ制約のためリファインメントの反復回数を制限する。

実験結果

リサーチクエスチョン

  • RQ1動的メモリは、初期画像が低品質のときにテキスト条件付き画像のリファインメントの忠実度をどのように改善できるか?
  • RQ2リファインメント中にキャプション内の語の重要性を適応的に選択してテキスト記述とより良く一致させることができるか?
  • RQ3メモリベースのリファインメント段階を組み込むと、テキストから画像への合成の標準指標は改善されるか?
  • RQ4メモリ書き込みゲートと応答ゲートが最終画像品質に与える影響は?

主な発見

  • DM-GAN は CUB および COCO で従来手法より高い Inception Score を達成(CUB: 4.75 vs 4.36; COCO: 30.49 vs 25.89)。
  • DM-GAN は AttnGAN と比較して Fréchet Inception Distance (FID) を低くする(CUB: 16.09 vs 23.98; COCO: 32.64 vs 35.49)。
  • DM-GAN は AttnGAN に比べて R-precision を改善(CUB: 72.31 vs 67.82; COCO: 88.56 vs 85.47)。
  • アブレーション研究は、動的メモリ、メモリ書き込みゲート、応答ゲートの各要素が性能向上に寄与することを示す。
  • 定性的結果は、特に複数対象の説明でより生き生きとしたディテールとより良いグローバル構造を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。