Skip to main content
QUICK REVIEW

[論文レビュー] DiffusionAgent: Navigating Expert Models for Agentic Image Generation

Jie Qin, Jie Wu|arXiv (Cornell University)|Jan 18, 2024
Multimodal Machine Learning Applications被引用数 9
ひとこと要約

DiffusionGPT は diverse prompts を解析する LLM 主導のシステムを用い、領域モデルの Tree-of-Thought を構築し、ヒトのフィードバックを伴う専門拡散モデルを選択して、ドメイン横断で画像生成品質を向上させる。

ABSTRACT

In the accelerating era of human-instructed visual content creation, diffusion models have demonstrated remarkable generative potential. Yet their deployment is constrained by a dual bottleneck: semantic ambiguity in diverse prompts and the narrow specialization of individual models. A single diffusion architecture struggles to maintain optimal performance across heterogeneous prompts, while conventional "parse-then-call" pipelines artificially separate semantic understanding from generative execution. To bridge this gap, we introduce DiffusionAgent, a unified, language-model-driven agent that casts the entire "prompt comprehension-expert routing-image synthesis" loop into a agentic framework. Our contributions are three-fold: (1) a tree-of-thought-powered expert navigator that performs fine-grained semantic parsing and zero-shot matching to the most suitable diffusion model via an extensible prior-knowledge tree; (2) an advantage database updated with human-in-the-loop feedback, continually aligning model-selection policy with human aesthetic and semantic preferences; and (3) a fully decoupled agent architecture that activates the optimal generative path for open-domain prompts without retraining or fine-tuning any expert. Extensive experiments show that DiffusionAgent retains high generation quality while significantly broadening prompt coverage, establishing a new performance and generality benchmark for multi-domain image synthesis. The code is available at https://github.com/DiffusionAgent/DiffusionAgent

研究の動機と目的

  • 多様な prompts を扱い、複数のドメイン固有モデルを統合して扱える統一的なテキスト-to-イメージシステムの必要性を動機づける。
  • LLM を認知的コントローラとして用い、専門拡散モデルを選択する枠組みを提案する。
  • モデルを整理し、効率的な探索と選択を可能にする Tree-of-Thought 構造を導入する。
  • 人間のフィードバックを伴う Advantage Database を組み込み、モデル選択を人間の好みと整合させる。
  • オープンソース拡散モデル間でトレーニング不要なプラグアンドプレイ適用性を実証する。

提案手法

  • Prompt Parse Agent は多様な入力形式(prompt-, instruction-, inspiration-, hypothesis-based)から核心内容を抽出する。
  • Tree-of-Thought of Models はモデルタグから階層的なモデルツリーを構築・維持し、スケーラブルなモデル組織を実現する。
  • Model Searching は TOT を用いて階層横断マッチングにより候補モデル集合を生成する。
  • Model Selection は Advantage Database を介して人間のフィードバックを統合し、トップモデルをランク付けして選択する。
  • Prompt Extension Agent はインコンテキスト学習を用いた例ベースの記述でプロンプトを拡張する。
  • Execution of Generation は選択されたモデルを適用して画像を生成し、品質向上のためにプロンプトを反復的に拡張する。

実験結果

リサーチクエスチョン

  • RQ1統一的なフレームワークはプロンプトの制約を解放し、テキスト-to-イメージ生成の適切なドメイン専門モデルを活性化できるか。
  • RQ2LLM 指導の Tree-of-Thought と人間のフィードバックは、プロンプトとドメインを跨いだモデル選択と出力品質をどの程度改善するか。
  • RQ3TOT+HF およびプロンプト拡張によって、ベースライン拡散モデルと比較して現実性・意味論・美学の向上はどの程度得られるか。

主な発見

Method画像報酬美的スコア
SD150.285.26
Random0.455.50
DiffusionGPT wo HF0.565.62
DiffusionGPT0.635.70
  • DiffusionGPT は prompts 全体で SD1.5 のベースラインよりも画像報酬と美的スコアで優れる(DiffusionGPT: 0.63 画像報酬; 5.70 美的スコア vs. SD15: 0.28 画像報酬; 5.26 美的スコア)。
  • ユーザ研究は DiffusionGPT が生成した画像をベースラインより一貫して好む傾向を示した。
  • TOT および人間のフィードバック(HF)は、ランダムなモデル選択と比較して意味的整合性と現実味を大幅に改善する。
  • プロンプト拡張は画像の美学とディテールを大幅に高める。
  • プロンプト解析と TOT ベースのモデル探索により、単純なプロンプトを超えた多様な入力タイプの取り扱いが向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。