QUICK REVIEW

[論文レビュー] Improving Text-to-Image Synthesis Using Contrastive Learning

Hui Ye, Xiulong Yang|arXiv (Cornell University)|Jul 6, 2021

Generative Adversarial Networks and Image Synthesis参考文献 44被引用数 24

ひとこと要約

本稿では、画像-テキストマッチング段階およびGAN訓練段階の両方で意味的整合性を向上させることで、テキストから画像を生成する性能を向上させる対照的学習フレームワークを提案する。同じ画像を記述する多様なキャプションのテキスト表現を一致させ、生成画像の分布的ばらつきを最小化することで、FIDスコアがCOCO上でのAttnGANに対して29.60%、DM-GANに対して21.96%向上し、複数のデータセットでISおよびR-precisionも向上する。

ABSTRACT

The goal of text-to-image synthesis is to generate a visually realistic image that matches a given text description. In practice, the captions annotated by humans for the same image have large variance in terms of contents and the choice of words. The linguistic discrepancy between the captions of the identical image leads to the synthetic images deviating from the ground truth. To address this issue, we propose a contrastive learning approach to improve the quality and enhance the semantic consistency of synthetic images. In the pretraining stage, we utilize the contrastive learning approach to learn the consistent textual representations for the captions corresponding to the same image. Furthermore, in the following stage of GAN training, we employ the contrastive learning method to enhance the consistency between the generated images from the captions related to the same image. We evaluate our approach over two popular text-to-image synthesis models, AttnGAN and DM-GAN, on datasets CUB and COCO, respectively. Experimental results have shown that our approach can effectively improve the quality of synthetic images in terms of three metrics: IS, FID and R-precision. Especially, on the challenging COCO dataset, our approach boosts the FID signifcantly by 29.60% over AttnGAN and by 21.96% over DM-GAN.

研究の動機と目的

同じ画像に対して人間がアノテートしたキャプションに見られる言語的ばらつきが、画像生成品質を低下させることの課題に対処する。
多様なキャプションに対して一貫した不変表現を学習することで、テキストから画像への生成における意味的整合性を向上させる。
GAN訓練中に対照的学習を適用することで、生成画像の忠実度と多様性を向上させる。
AttnGAN や DM-GAN などの既存のGANベースのテキストから画像生成モデルと互換性を持つようにアプローチを一般化する。
CUBおよびCOCOデータセットにおいて、複数の指標（IS、FID、R-precision）で一貫した性能向上を示す。

提案手法

同じ画像を記述する複数のキャプションの埋め込みを一致させるために、対照的損失を用いて画像およびテキストエンコーダーを事前学習する。
実際の画像と同じ意味的関連性を持つキャプションから生成された偽物画像の表現を押し合わせるため、対照的学習を適用する。
同じ画像に対するサンプル間ばらつきを最小化し、異なる画像間では最大限に分散を生じさせるように、対照的損失をGAN訓練パイプラインに統合する。
学習可能なハイパーパrameter λc および τ を用いた温度スケーリングされた対照的損失を用い、訓練の安定化と表現品質の向上を図る。
GAN訓練中に事前学習済みの画像およびテキストエンコーダーを活用し、テキストと生成画像の特徴量間の整合性を強化する。
アーキテクチャの変更なしに、AttnGAN や DM-GAN などの既存モデルと即座に統合可能な、プラグアンドプレイなアプローチを実現する。

実験結果

リサーチクエスチョン

RQ1対照的学習は、キャプションの言語的ばらつきがテキストから画像への生成品質に与える影響を軽減できるか？
RQ2同じ画像を記述する画像-テキストペアと生成画像ペアの両方で対照的学習を併用することで、合成における意味的整合性はどのように向上するか？
RQ3提案手法は、AttnGAN や DM-GAN といった強力なベースラインと比較して、FID、IS、R-precision のどの程度向上を達成するか？
RQ4対照的損失のハイパーパrameter λc および τ に対する性能の感度はどの程度か？
RQ5提案された対照的学習フレームワークは、既存のGANベースのテキストから画像生成モデルに効果的に一般化・統合できるか？

主な発見

COCOデータセットにおいて、提案手法はAttnGANに対してFIDを29.60%低減し、DM-GANに対して21.96%低減した。これは顕著な性能向上を示している。
両方の対照的学習段階を適用した場合、CUBではR-precisionが2.25ポイント、COCOでは1.58ポイント向上した。
CUBでは、ベースラインのDM-GANのFIDが15.55から、完全な対照的アプローチでは14.38に改善され、指標全体にわたる一貫性ある向上が確認された。
ハイパーパrameter λc はFIDにわずかな影響しか与えず、最良の性能は λc = 0.2（FID = 16.34）で得られた。一方、τ はわずかだが測定可能な影響を持ち、τ = 0.5 が最も低いFIDを達成した。
ほとんどの設定でISは維持またはわずかに向上し、COCOでDM-GANを用いた場合に0.55ポイントの低下に留まった。これは多様性にほとんどトレードオフがないことを示している。
アブレーションスタディにより、画像-テキストマッチング段階とGAN訓練段階の両方で対照的学習が必要であることが確認され、各段階で段階的かつ累積的な向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。