[論文レビュー] Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis
トレーニング不要の手法で、Stable Diffusionのクロスアテンションに構造化された言語ガイダンスを注入し、T2Iにおける属性結合と組成性を改善する。新しいABC-6KとCC-500ベンチマークで評価。
Large-scale diffusion models have achieved state-of-the-art results on text-to-image synthesis (T2I) tasks. Despite their ability to generate high-quality yet creative images, we observe that attribution-binding and compositional capabilities are still considered major challenging issues, especially when involving multiple objects. In this work, we improve the compositional skills of T2I models, specifically more accurate attribute binding and better image compositions. To do this, we incorporate linguistic structures with the diffusion guidance process based on the controllable properties of manipulating cross-attention layers in diffusion-based T2I models. We observe that keys and values in cross-attention layers have strong semantic meanings associated with object layouts and content. Therefore, we can better preserve the compositional semantics in the generated image by manipulating the cross-attention representations based on linguistic insights. Built upon Stable Diffusion, a SOTA T2I model, our structured cross-attention design is efficient that requires no additional training samples. We achieve better compositional skills in qualitative and quantitative results, leading to a 5-8% advantage in head-to-head user comparison studies. Lastly, we conduct an in-depth analysis to reveal potential causes of incorrect image compositions and justify the properties of cross-attention layers in the generation process.
研究の動機と目的
- T2I出力におけるオブジェクトと属性の帰属結合を改善する。
- 追加のトレーニングデータなしでマルチオブジェクトのシーンの構成生成を強化する。
- 拡散モデルのクロスアテンションを導くために構造化された言語表現を活用する。
- 構成性と結合精度を定量化するベンチマークを導入する(ABC-6K)。
提案手法
- プロンプトから複数の名詞句を抽出するために構成素解析またはシーングラフを使用する。
- 凍結されたCLIPテキストエンコーダで各テキストスパンをエンコードし、全プロンプト列と埋め込みを再配置する。
- アテンションマップを使用してテキストスパンの意味を注目された画像領域へマッピングすることでクロスアテンションを修正する。
- すべての構造化テキストスパンからのアテンションベースの値ベクトルを拡散ガイダンスに計算および融合する(式1–4)。
- 結合プロンプト向けに複数のアテンションマップを集約するバリアントを導入する(式5–6)。
- 追加データなしでStable Diffusionとトレーニングフリーな統合を実証する。
実験結果
リサーチクエスチョン
- RQ1構造化されたクロスアテンションガイダンスはT2I生成における属性-オブジェクト結合を改善するか。
- RQ2構造化表現(構成木とシーングラフ)は構成性と画像忠実度にどのように影響するか。
- RQ3一般的なプロンプトにも適用可能で、画像品質を保てるか。
- RQ4不正確な構成の原因は何か、アテンションマップはレイアウトと内容にどう関連するか。
主な発見
- StructureDiffusionはベースラインのStable Diffusionに対してユーザ対比で5-8%の優位を示す。
- 本手法はオブジェクトレベルおよびシーンレベルの構成性を改善し、色の正確性を含む欠損オブジェクトの減少を実現する。
- 全体的な画像忠実度と多様性を、ベースライン指標(IS/FID/R-Prec)と同等に維持する。
- シーングラフ入力と構成解析の両方が構造化ガイダンスをサポートし、色の結合とオブジェクトの完全性に定性的改善をもたらす。
- 構成的プロンプトにおける属性結合を評価する新しいABC-6Kベンチマークを提案し、CC-500および一般的なMSCOCOプロンプトと併用する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。