Skip to main content
QUICK REVIEW

[論文レビュー] CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Dongzhi Jiang, Guanglu Song|arXiv (Cornell University)|Apr 4, 2024
Image Retrieval and Classification Techniques被引用数 6
ひとこと要約

CoMat が image-to-text concept matching 機構を用いて拡散モデルをファインチューニングし、キャプション生成モデルを用いて欠落した概念を導くとともに、attribute concentration モジュールで属性結合を改善し、image-text ペアを必要とせずにテキストと画像の整合性を最先端レベルに達成します。

ABSTRACT

Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.

研究の動機と目的

  • 拡散ベースの T2I モデルにおけるテキストプロンプトと生成画像のずれを動機づけ、診断する。
  • image-to-text concept matching を用いてトークンアテンションの再バランスを図る、エンドツーエンドのファインチューニングフレームワークを提案する。
  • エンティティ属性濃縮モジュールを通じて属性結合を改善する。
  • 忠実度維持機構を通じて整合性をガイドする一方で元の生成能力を保持する。

提案手法

  • 拡散モデルを用いてテキストプロンプトから画像を生成し、凍結した captioning モデルを用いて prompt の概念に対する p(C | image) を評価する。
  • ノイズ除去プロセスを逆伝播させ、欠落した概念が画像で活性化されるよう拡散モデルを最適化する(concept matching loss)。
  • prompts からエンティティ(名詞)と修飾語を抽出し、Grounded-SAM を用いて領域マスクを取得し、 noun と modifier を画像領域に合わせるためにトークンレベルおよびピクセルレベルのアテンション損失を適用する(属性集中)。
  • 事前学習済みの拡散モデルから初期化された識別子を用いた対立的忠実度保持損失を追加し、キャプションベースの報酬への過適合を防ぎ、生成品質を維持する。
  • L = L_cap + alpha L_token + beta L_pixel + lambda L_adv の結合目的関数で、画像や人間の嗜好を必要とせず、エンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1image-to-text concept matching を用いたガイドはトークンアテンションを改善し、プロンプトと生成画像のずれを低減できるか。
  • RQ2object 区域における属性集中を強制することは属性結合と全体的なプロンプト忠実度を向上させるか。
  • RQ3報酬主導のファインチューニング中に忠実度を保持し、生成品質の劣化を防ぐにはどうするべきか。
  • RQ4基底となる拡散モデルとキャプショニングバックボーンの異なる場合でも手法は有効か。

主な発見

  • CoMat-SDXL は T2I-CompBench でテキストと画像の整合性を最先端レベルで達成し、SDXL ベースラインと比較して属性結合と空間関係で顕著な向上を示す。
  • CoMat-SD1.5 は SD1.5 ベースラインを大きく上回り、特に空間関係の指標で 70% 近くの大幅な改善を示す。
  • TIFA では CoMat-SDXL が SDXL より 1.8 ポイント改善、CoMat-SD1.5 は SD1.5 より 7.3 ポイント改善。
  • アブレーションにより、概念マッチングが大きな利得を提供し、属性集中を追加することで複数のサブカテゴリでさらなる改善が得られる。
  • 事前学習済み UNet を忠実度保持の識別子として用いると、生成品質を劣化させずに画像忠実度と整合性のバランスが最適化される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。