QUICK REVIEW

[論文レビュー] LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

Long Lian, Boyi Li|arXiv (Cornell University)|May 23, 2023

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

この論文は、訓練を要さない二段階アプローチ（LLM-grounded Diffusion, LMD）を導入し、LLMを用いてシーンレイアウトを生成し、レイアウトに基づくコントローラで拡散モデルを導くことで、プロンプト理解とマルチラウンドのシーン指定を大幅に改善します。

ABSTRACT

Recent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those that involve numeracy and spatial reasoning. This work proposes to enhance prompt understanding capabilities in diffusion models. Our method leverages a pretrained large language model (LLM) for grounded generation in a novel two-stage process. In the first stage, the LLM generates a scene layout that comprises captioned bounding boxes from a given prompt describing the desired image. In the second stage, a novel controller guides an off-the-shelf diffusion model for layout-grounded image generation. Both stages utilize existing pretrained models without additional model parameter optimization. Our method significantly outperforms the base diffusion model and several strong baselines in accurately generating images according to prompts that require various capabilities, doubling the generation accuracy across four tasks on average. Furthermore, our method enables instruction-based multi-round scene specification and can handle prompts in languages not supported by the underlying diffusion model. We anticipate that our method will unleash users' creativity by accurately following more complex prompts. Our code, demo, and benchmark are available at: https://llm-grounded-diffusion.github.io

研究の動機と目的

追加の訓練なしで、テキストから画像への拡散モデルにおけるプロンプト理解を改善する。
プロンプトから構造化された画像レイアウトを生成するために、事前学習済みのLLMを活用する。
市販の拡散モデルを、LLM生成レイアウトに基づいた画像をレンダリングするよう導く。
命令ベースのマルチラウンドシーン指定と多言語間の画像生成を可能にする。
拡散モデルのプロンプト遵守能力を評価するベンチマークを提供する。）
method:[
Stage 1: 固定されたLLMを用いて、入力プロンプトからキャプション付き境界ボックスとしてのシーンレイアウトと背景キャプションを生成する。
Stage 2: 新規のレイアウト基盤コントローラを適用して、再訓練なしに既存の拡散モデルを導き、LLM生成レイアウトに従う画像を生成させる。
個々のボックスごとのマスク済み潜在変数とアテンション誘導ノイズ除去により、インスタンスレベルの制御を実現する。
構成ステップは、ボックスごとの潜在生成を一貫した基づきの最終画像へ結合する。
(例: GLIGEN) のような訓練ベースの手法との任意の統合により、インスタンス/属性制御をさらに強化する（LMD+）。
ベースの拡散モデルがサポートしない言語でのプロンプトから、命令ベースのマルチラウンドなシーン指定と生成をサポートする。

提案手法

Stage 1: 固定されたLLMを用いて、入力プロンプトからキャプション付き境界ボックスとしてのシーンレイアウトと背景キャプションを生成する。
Stage 2: 新規のレイアウト基盤コントローラを適用して、再訓練なしに既存の拡散モデルを導き、LLM生成レイアウトに従う画像を生成させる。
個々のボックスごとのマスク済み潜在変数とアテンション誘導ノイズ除去により、インスタンスレベルの制御を実現する。
構成ステップは、ボックスごとの潜在生成を一貫した基づきの最終画像へ結合する。
(例: GLIGEN) のような訓練ベースの手法との任意の統合により、インスタンス/属性制御をさらに強化する（LMD+）。
ベースの拡散モデルがサポートしない言語でのプロンプトから、命令ベースのマルチラウンドなシーン指定と生成をサポートする。

実験結果

リサーチクエスチョン

RQ1LLM生成レイアウトは、複雑なプロンプト（否定、数値性、空間関係、属性結合）への拡散モデルの適合性を改善できるか。
RQ2訓練不要の二段階LLM-groundedパイプラインは、プロンプト遵守タスクにおいて基盤の拡散モデルやベースラインを上回るか。
RQ3この手法は再訓練なしでマルチラウンドのシーン指定と非母語プロンプトを実現できるか。
RQ4訓練ベースのアダプタ（例: GLIGEN）をLMDと統合する効果はどのようか。

主な発見

Task	Stable Diffusion (SD)	LMD	LMD+	Notes
否定	28%	100% (3.6x)	100% (3.6x)	明示的な否定ガイダンスに基づきレイアウトに従うプロンプト
ジェネレーティブ数値性	39%	62% (1.6x)	86% (2.2x)	数値の扱いとカウントとの整合性が高い
属性結合	52%	65% (1.3x)	69% (1.3x)	正しい属性が正しいオブジェクトに結びつく
空間関係	28%	79% (2.8x)	67% (2.4x)	レイアウト基盤を通じた正確な空間推論
平均	37%	77% (2.1x)	81% (2.2x)	全タスクにわたる総合的な改善

LMDは、4つのプロンプト遵守タスク全般でベースのStable Diffusionモデルを大きく上回り、平均的な生成精度を平均で倍増させる。
ベンチマークタスクでは：否定—SD 28% 対 LMD 100% (3.6x); ジェネレーティブ数値性—SD 39% 対 LMD 62% (1.6x) および LMD+ 86% (2.2x); 属性結合—SD 52% 対 LMD 65% (1.3x) および LMD+ 69% (1.3x); 空間関係—SD 28% 対 LMD 79% (2.8x) および LMD+ 67% (2.4x); 平均—SD 37% 対 LMD 77% (2.1x) および LMD+ 81% (2.2x)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。