QUICK REVIEW

[論文レビュー] AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

Tao Xu, Pengchuan Zhang|arXiv (Cornell University)|Nov 28, 2017

Generative Adversarial Networks and Image Synthesis参考文献 29被引用数 158

ひとこと要約

AttnGAN は、テキストから高精細画像を生成する注意機構付きマルチステージ GAN を導入し、DAMSM を用いて画像と言語の高精細対応を実現し、CUB および COCO で最先端の成果を達成しています。

ABSTRACT

In this paper, we propose an Attentional Generative Adversarial Network (AttnGAN) that allows attention-driven, multi-stage refinement for fine-grained text-to-image generation. With a novel attentional generative network, the AttnGAN can synthesize fine-grained details at different subregions of the image by paying attentions to the relevant words in the natural language description. In addition, a deep attentional multimodal similarity model is proposed to compute a fine-grained image-text matching loss for training the generator. The proposed AttnGAN significantly outperforms the previous state of the art, boosting the best reported inception score by 14.14% on the CUB dataset and 170.25% on the more challenging COCO dataset. A detailed analysis is also performed by visualizing the attention layers of the AttnGAN. It for the first time shows that the layered attentional GAN is able to automatically select the condition at the word level for generating different parts of the image.

研究の動機と目的

自然言語説明からの細部にわたる画像合成を動機づける。
複数の段階にわたって画像を洗練させるための、注意機構を備えた GAN を開発する。
細粒度の画像とテキストの照合のための Deep Attentional Multimodal Similarity Model (DAMSM) を導入する。
標準データセット上で、従来の最先端のテキスト-to-画像モデルと比較して AttnGAN を評価する。
生成過程における語レベルの条件付けを理解するために、注意機構の可視化を分析する。

提案手法

語レベルの注意を用いてサブ領域を条件付けしつつ、段階的に高解像度画像を生成する複数の生成ネットワークを備えた Attentional Generative Network を提案する。
各画像サブ領域が関連する語ベクトルを照会して生成のための多モーダル文脈を形成する、注意機構を統合する。
生成器を Dual Adversarial and DAMSM loss に結合する; adversarial loss には unconditional および conditional (text-macon) コンポーネントを含む。
DAMSM を用いて、画像のサブ領域を対応する語と整合させる細粒度の画像-テキスト照合損失を計算する。
テキストを双方向 LSTM でエンコードして語ベクトルとグローバルな文ベクトルを得る。CNN (Inception-v3 ベースの) エンコーダを介して画像サブ領域を共通の意味空間にマップする。
GAN 損失と LAMSM 損失をバランスさせてモデルを訓練することで、語レベルの整合を促進しモード崩壊を抑制する。

実験結果

リサーチクエスチョン

RQ1注意機構主導の多段階リファインメントは、グローバルな文条件付けよりも高品質で細かな画像をテキストから生み出せるか？
RQ2深い注意付きマルチモーダル類似度モデルは、細粒度の画像-テキスト照合損失を提供することで学習を改善するか？
RQ3詳細で複数オブジェクトを含むデータセット（CUB および COCO）において、従来の GAN モデルと比較して AttnGAN はどのように性能を発揮するか？
RQ4生成時の注意マップを可視化することでどのような洞察が得られるか？

主な発見

方法	Inception スコア	R-精度（％）
AttnGAN1, no DAMSM	3.98 ± 0.04	10.37 ± 5.88
AttnGAN1, λ=0.1	4.19 ± 0.06	16.55 ± 4.83
AttnGAN1, λ=1	4.35 ± 0.05	34.96 ± 4.02
AttnGAN1, λ=5	4.35 ± 0.04	58.65 ± 5.41
AttnGAN1, λ=10	4.29 ± 0.05	63.87 ± 4.85
AttnGAN2, λ=5	4.36 ± 0.03	67.82 ± 4.43
AttnGAN2, λ=50	25.89 ± 0.47	85.47 ± 3.69

AttnGAN は CUB および COCO で従来モデルに対する Inception score を著しく向上させる。CUB では 4.36 に達し、COCO では報告設定で 25.89 まで達する。
層状の注意機構により、サブ領域の語レベル条件付けが可能になり、生成画像の細粒度ディテールを改善する。
注意機構ステージを積み重ねる（AttnGAN2）は、単一段階設定よりも高解像度出力（最大 256x256）とより良いスコアを得る。
DAMSM は R-precision（テキスト-画像照合）と Inception score を大幅に向上させる。より高い lambda 値は一般に両指標を改善する。
定性的分析は、サブ領域の意味的に関連する語に注意が集中していることを示し、注目する語を変更すると有意な変化が生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。