[论文解读] DiffGraph: An Automated Agent-driven Model Merging Framework for In-the-Wild Text-to-Image Generation
DiffGraph 自动收集在线专家模型,构建通用图,动态激活子图以将专家合并,实现无需再训练即可在真实场景下进行灵活的文本到图像生成。
The rapid growth of the text-to-image (T2I) community has fostered a thriving online ecosystem of expert models, which are variants of pretrained diffusion models specialized for diverse generative abilities. Yet, existing model merging methods remain limited in fully leveraging abundant online expert resources and still struggle to meet diverse in-the-wild user needs. We present DiffGraph, a novel agent-driven graph-based model merging framework, which automatically harnesses online experts and flexibly merges them for diverse user needs. Our DiffGraph constructs a scalable graph and organizes ever-expanding online experts within it through node registration and calibration. Then, DiffGraph dynamically activates specific subgraphs based on user needs, enabling flexible combinations of different experts to achieve user-desired generation. Extensive experiments show the efficacy of our method.
研究动机与目标
- 利用一个庞大且在发展中的在线专家生态系统来提升文本到图像生成。
- 通过一个通用图实现对专家的组织,包含节点注册和标定。
- 在不重新训练的前提下实现对不同数量和类型专家的动态、基于提示的合并。
- 提供一个可扩展的框架,能够在新专家出现时优雅地将其纳入。
提出的方法
- 通过抓取在线平台并将每个专家表示为一个节点来构建通用专家图。
- 使用节点注册从专家主页生成定性技能描述并将其编码为文本嵌入。
- 使用节点标定通过在具有代表性的参考提示上评估专家能力并形成边特征来量化专家能力。
- 使用专家选择代理(ESA)解析用户提示,检索 CKPT 和 PEFT 专家候选,并通过基于LLM的评审进行筛选。
- 在所选专家周围激活一个子图并将用户提示附加为一个节点;使用变分图自编码器(VGAE)预测每个专家的合并系数(Beta分布)。
- 基于 VGAE 预测的系数对所选 CKPT 和 PEFT 专家进行加权组合,形成最终的合并扩散模型。

实验结果
研究问题
- RQ1一个基于图的框架如何自主地组织和利用一个庞大且在发展中的在线T2I专家集合?
- RQ2基于VGAE的合并规划是否能够在不重新训练的情况下生成高质量的合并方案以适应多样化的用户提示?
- RQ3与固定合并方法相比,动态子图激活是否能提高生成质量和效率?
主要发现
| Methods | DABench_IR | DABench_HPS | DABench_AS | DABench_PS | DABench_CS | DiffusionDB_IR | DiffusionDB_HPS | DiffusionDB_AS | DiffusionDB_PS | DiffusionDB_CS |
|---|---|---|---|---|---|---|---|---|---|---|
| SD15 Direct | -18.27 | 23.88 | 5.81 | 18.62 | 78.94 | 14.83 | 23.74 | 5.87 | 19.61 | 82.70 |
| DARE [49] | -3.86 | 24.66 | 5.84 | 18.89 | 81.46 | 28.02 | 24.78 | 5.95 | 19.74 | 83.47 |
| Model Swarms [6] | 17.74 | 25.90 | 5.76 | 18.79 | 82.16 | 50.62 | 26.63 | 5.93 | 19.71 | 82.94 |
| Diffusion Soup [2] | -3.81 | 25.55 | 5.92 | 19.41 | 81.70 | 33.79 | 25.64 | 6.04 | 20.39 | 84.61 |
| Ours fixed | 23.14 | 28.37 | 6.21 | 20.17 | 83.71 | 54.83 | 27.67 | 6.20 | 20.48 | 85.13 |
| ESA ∗ +K-LoRA [27] | 19.33 | 25.99 | 5.97 | 19.48 | 84.31 | 27.14 | 25.42 | 6.10 | 19.94 | 85.16 |
| ESA ∗ +LoRA.rar [35] | 25.42 | 27.03 | 6.03 | 19.83 | 84.05 | 34.23 | 25.46 | 6.14 | 20.24 | 85.41 |
| AutoLoRA [21] | 26.51 | 27.41 | 6.04 | 19.96 | 82.97 | 35.62 | 25.56 | 6.15 | 20.17 | 83.02 |
| DiffAgent [55] | 29.94 | 27.83 | 6.36 | 20.28 | 84.19 | 52.65 | 27.52 | 6.39 | 20.31 | 84.84 |
| Ours | 73.11 | 30.06 | 6.54 | 20.62 | 84.79 | 85.40 | 29.48 | 6.66 | 21.05 | 85.86 |
| FLUX Direct | 84.20 | 29.81 | 6.16 | 20.57 | 80.82 | 91.14 | 29.40 | 6.13 | 20.67 | 79.12 |
| FLUX DARE | 95.74 | 29.60 | 6.20 | 20.54 | 81.58 | 100.21 | 28.87 | 6.18 | 20.87 | 79.79 |
| FLUX Model Swarms | 104.76 | 30.03 | 6.27 | 20.80 | 81.12 | 120.82 | 30.22 | 6.17 | 21.26 | 81.07 |
| FLUX Diffusion Soup | 88.26 | 29.77 | 6.22 | 20.64 | 80.63 | 115.24 | 30.03 | 6.10 | 21.25 | 78.95 |
- 所提出的 DiffGraph 框架在评估基准上在多项图像质量指标方面达到或接近最先进水平。
- 在 DABench 上,Ours 方法(DiffGraph)在若干指标上相较基线和消融方法获得最高分。
- 在 DiffusionDB 上,DiffGraph 展示了有竞争力的表现,并在若干基线方法上实现显著改进。
- 通用图结构可扩展到数千个在线专家,并能够在无需训练的情况下纳入新专家。
- 训练主要集中在一个轻量级的 VGAE;部署后系统其余部分保持推理(inference)状态。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。