Skip to main content
QUICK REVIEW

[论文解读] DiffusionAgent: Navigating Expert Models for Agentic Image Generation

Jie Qin, Jie Wu|arXiv (Cornell University)|Jan 18, 2024
Multimodal Machine Learning Applications被引用 9
一句话总结

DiffusionGPT 使用一个由 LLM 驱动的系统来解析多样化的提示,构建领域模型的 Tree-of-Thought,并通过人工反馈选择专家扩散模型以在跨领域提升图像生成质量。

ABSTRACT

In the accelerating era of human-instructed visual content creation, diffusion models have demonstrated remarkable generative potential. Yet their deployment is constrained by a dual bottleneck: semantic ambiguity in diverse prompts and the narrow specialization of individual models. A single diffusion architecture struggles to maintain optimal performance across heterogeneous prompts, while conventional "parse-then-call" pipelines artificially separate semantic understanding from generative execution. To bridge this gap, we introduce DiffusionAgent, a unified, language-model-driven agent that casts the entire "prompt comprehension-expert routing-image synthesis" loop into a agentic framework. Our contributions are three-fold: (1) a tree-of-thought-powered expert navigator that performs fine-grained semantic parsing and zero-shot matching to the most suitable diffusion model via an extensible prior-knowledge tree; (2) an advantage database updated with human-in-the-loop feedback, continually aligning model-selection policy with human aesthetic and semantic preferences; and (3) a fully decoupled agent architecture that activates the optimal generative path for open-domain prompts without retraining or fine-tuning any expert. Extensive experiments show that DiffusionAgent retains high generation quality while significantly broadening prompt coverage, establishing a new performance and generality benchmark for multi-domain image synthesis. The code is available at https://github.com/DiffusionAgent/DiffusionAgent

研究动机与目标

  • 阐明需要一个统一的文本到图像系统来处理多样化的提示和多域特定模型。
  • 提出一个框架,使用 LLM 作为认知控制器来选择专家扩散模型。
  • 引入 Tree-of-Thought 结构来组织模型并实现高效搜索与选择。
  • 结合带有人工反馈的 Advantage 数据库以让模型选择与人类偏好保持一致。
  • 展示在开源扩散模型上的免训练即插即用适用性。

提出的方法

  • Prompt Parse Agent 从多样化输入形式(提示、指令、灵感、假设基础)中提取核心内容。
  • Tree-of-Thought of Models 构建并维护一个基于模型标签的分层模型树,以实现可扩展的模型组织。
  • Model Searching 使用 TOT 通过广度优先类别匹配生成候选模型集。
  • Model Selection 通过优势数据库整合人工反馈以对排名并选出最佳模型。
  • Prompt Extension Agent 使用上下文学习以实例化描述来丰富提示。
  • Execution of Generation 使用所选模型生成图像并迭代扩展提示以提升质量。

实验结果

研究问题

  • RQ1一个统一框架能否释放提示约束并在文本到图像生成中激活合适的领域专家模型?
  • RQ2如何通过 LLM 引导的 Tree-of-Thought 与人工反馈在跨提示及领域的模型选择和输出质量上实现改进?
  • RQ3与基线扩散模型相比,TOT+HF 与提示扩展在真实感、语义和美感方面带来哪些提升?

主要发现

MethodImage-rewardAes score
SD150.285.26
Random0.455.50
DiffusionGPT wo HF0.565.62
DiffusionGPT0.635.70
  • DiffusionGPT 在不同提示下在图像奖励和美学分数方面优于 SD1.5 基线(DiffusionGPT:0.63 图像奖励;5.70 美学分数;对比 SD15:0.28 图像奖励;5.26 美学分数)。
  • 用户研究显示对 DiffusionGPT 生成的图像相对于基线具有一致偏好。
  • TOT 与人工反馈(HF)与随机模型选择相比显著提升语义对齐和真实感。
  • 提示扩展显著提升图像美学和细节。
  • 提示解析和 TOT 基于模型搜索使得对多样输入类型的处理超越简单提示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。