Skip to main content
QUICK REVIEW

[論文レビュー] Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

Jiahui Yu, Yuanzhong Xu|arXiv (Cornell University)|Jun 22, 2022
Generative Adversarial Networks and Image Synthesis被引用数 340
ひとこと要約

この論文は、20Bパラメータまでスケールする Parti、Pathways Autoregressive Text-to-Image モデルを提示します。Transformerベースの画像トークナイザ―(ViT-VQGAN)とエンコーダ-デコーダアーキテクチャを用い、MS-COCOとLocalized Narrativesでゼロショットおよびファインチューニング済みFIDの最先端を達成するとともに、新しいオープンドメイン評価ベンチマーク(PartiPrompts)を導入します。

ABSTRACT

We present the Pathways Autoregressive Text-to-Image (Parti) model, which generates high-fidelity photorealistic images and supports content-rich synthesis involving complex compositions and world knowledge. Parti treats text-to-image generation as a sequence-to-sequence modeling problem, akin to machine translation, with sequences of image tokens as the target outputs rather than text tokens in another language. This strategy can naturally tap into the rich body of prior work on large language models, which have seen continued advances in capabilities and performance through scaling data and model sizes. Our approach is simple: First, Parti uses a Transformer-based image tokenizer, ViT-VQGAN, to encode images as sequences of discrete tokens. Second, we achieve consistent quality improvements by scaling the encoder-decoder Transformer model up to 20B parameters, with a new state-of-the-art zero-shot FID score of 7.23 and finetuned FID score of 3.22 on MS-COCO. Our detailed analysis on Localized Narratives as well as PartiPrompts (P2), a new holistic benchmark of over 1600 English prompts, demonstrate the effectiveness of Parti across a wide variety of categories and difficulty aspects. We also explore and highlight limitations of our models in order to define and exemplify key areas of focus for further improvements. See https://parti.research.google/ for high-resolution images.

研究の動機と目的

  • 自己回帰型テキストツーイメージモデルを20Bパラメータへスケールさせ、オープンドメインのプロンプトで評価する。
  • ゼロショットおよびファインチューニング設定で、最先端の画像品質とテキスト-画像整合性を示す。
  • 包括的なベンチマーク(PartiPrompts)とモデルの限界の分析を導入し、今後の研究を指針とする。

提案手法

  • テキストツーイメージ生成を、TransformerベースのViT-VQGANトークナイザによって生成された画像トークンを用いるシーケンス対シーケンス学習として扱う。
  • 文本トークン列を画像トークン列に写像するエンコーダ-デコーダのTransformersを訓練し、画像トークンをViT-VQGANでピクセルへデコードする。
  • テキストエンコーダを大規模言語データで事前訓練し、テキストツーイメージ生成のために共同微調整する。
  • 分類子なしガイダンスとコントラスト学習再ランキング(CoCa)を適用して、サンプル品質と画像-テキストの整合性を向上させる。
  • クラウドTPUv4上でGSPMDを用いた分散トレーニングを行い、層内モデル並列性とデータ並列性を含む、large model向けの4xエンコーダ/デコーダ設計を採用する。
  • 任意で画像トークナイザの上に超解像モジュールを組み込み、より高解像度の出力を生成する。

実験結果

リサーチクエスチョン

  • RQ120Bパラメータへスケールした自己回帰型エンコーダ-デコーダ型テキストツーイメージモデルは、標準的および長文記述に対して既存のベースラインを上回るか?
  • RQ2ViT-VQGAN画像トークナイザは、スケール時の再構成品質とコードブックの利用にどのように影響するか?
  • RQ3テキストエンコーダの事前訓練が下流のテキストツーイメージ生成性能に与える影響は?
  • RQ4分類子なしガイダンスと再ランキングは、大規模 Parti モデルにおけるテキスト-画像の整合性とサンプル多様性を改善するか?
  • RQ5オープンドメインプロンプトや長い記述は、MS-COCOスタイルのキャプションを超えてPartiへ一般化するか?

主な発見

  • 20B PartiモデルはMS-COCOでゼロショットFID 7.23、ファインチューニング済みFID 3.22を達成。
  • PartiはLocalized NarrativesでゼロショットFID 15.97、ファインチューニング済みFID 8.39を達成。
  • 20Bパラメータへスケールすることで、データセット全体でテキスト-画像整合性と画像忠実度の一貫した向上が得られる。
  • PartiPrompts (P2) は、12カテゴリと11のチャレンジ要素を網羅する1600プロンプトの総合ベンチマークで、オープンドメイン生成を評価する。
  • 分類子なしガイダンスと対比再ランキングは補完的で、サンプル品質と整合性を改善する。
  • このアプローチは、より長く詳細なプロンプトへのゼロショット一般化を強く示し、豊かな内容の合成をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。