Skip to main content
QUICK REVIEW

[論文レビュー] Cross-Modal Contrastive Learning for Text-to-Image Generation

Han Zhang, Jing Yu Koh|arXiv (Cornell University)|Jan 12, 2021
Generative Adversarial Networks and Image Synthesis参考文献 61被引用数 34
ひとこと要約

XMC-GAN はクロスモーダル対照学習を用いた画像・文、画像・画像、領域・語の対照損失を導入し、注目の自己調整生成器と対照ディスクリミネータを備え、COCO、Localized Narratives、Open Images データセット全体でテキストから画像生成の最先端を達成します。

ABSTRACT

The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.

研究の動機と目的

  • 高意味的忠実性とフォトリアリズムを、小さなまたは単純なシーンを超えて、テキストから画像への合成に動機づける。
  • クロスモーダル対照学習を介して説明テキストと画像を一次生成で整合させるGAN を開発する。
  • インター模態(画像-文、実画像 vs 偽画像)とイントラ模態(領域-語)の対応を強制し、グローバルおよびローカルの忠実度を向上させる。
  • 多様なデータセット(MS-COCO、Localized Narratives、Open Images)でヒト評価と自動評価の両方を用いて強い実証的成果を示す。

提案手法

  • 単段の注意付き自己モジュレーション生成器を備えた XMC-GAN を提案する。
  • 複数の対照損失を適用する:画像-文(グローバル整合性)、画像-画像(共有キャプションを持つ実画像と生成画像)、画像-領域から語へ(注意機構による局所整合性)。
  • 対照学習と特徴エンコーダとして機能する判別器を用い、領域/グローバル特徴を計算する。
  • 注意による領域-語の整合性を用いて、クロスモーダル監督のための語-領域コンテキストベクトルを生成する。
  • 生成中に語-文脈ベクトルによって領域特徴をモジュレーションする注意付き自己モジュレーションを組み込み、領域レベルの忠実度を強化する。
  • GAN 目的関数と NT-Xent 対照損失を、モダリティ対の共有エンコーダとともに組み合わせて学習する。

実験結果

リサーチクエスチョン

  • RQ1クロスモーダル対照損失は、オブジェクトレベルの監督なしでも現実性とテキスト整合性の両方を改善できるか。
  • RQ2インター模態(画像-文、領域-語)とイントラ模態(画像-画像)対照損失は、全球的な画像品質と領域レベルの忠実度をどのように相互作用して改善するか。
  • RQ3注意付き自己モジュレーション生成器は、微細なディテールをよりよく捉え、長く説明的なキャプションと整合するか。
  • RQ4MS-COCO 以外の多様なデータセット(例:Localized Narratives、Open Images)で、従来手法と比較して XMC-GAN はどう性能を発揮するか。

主な発見

モデルIS ↑FID ↓R-prec ↑SOA-C ↑SOA-I ↑
Real Images34.886.0969.3674.9780.84
AttnGAN23.6133.10-25.8839.01
Obj-GAN24.0936.52-27.1441.24
DM-GAN32.3227.34-33.4448.03
OP-GAN27.8824.7049.8035.8550.47
SD-GAN35.69029.35--
CP-GAN52.73055.8277.0284.55
XMC-GAN (ours)30.459.3371.0050.9471.33
  • XMC-GAN は高い忠実度と整合性の改善を実現し、COCO-14 の FID を 24.70 から 9.33 に低減し、Real Images が 6.09 の FID および 69.36 の R-precision を持つ IS が 30.45 を達成する基盤を提供する。
  • 人間評価では、現実性について XMC-GAN を採用した比較で 77.3%、画像-テキスト整合性については 74.1% の支持を得た。
  • LN-COCO では、FID が 48.70 から 14.12 へ改善し、テキスト整合性指標で大幅な改善を示す。
  • LN-OpenImages では、IS が 24.90、FID が 26.91、R-precision が 57.55 となり、強力なベンチマークを確立。
  • アブレーション研究では、インター模態の損失(画像-文と領域-語)が最大の FID 改善を提供し、4つの損失を全て組み合わせると全体性能が最高になることを示す。
  • 注意付き自己モジュレーションは標準の自己モジュレーションを大幅に超え、対照損失は知覚的損失よりも生成のガイダンスで優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。