[論文レビュー] DiffGraph: An Automated Agent-driven Model Merging Framework for In-the-Wild Text-to-Image Generation
DiffGraphはオンラインのExpertモデルを自動で収集し、普遍的グラフを構築してサブグラフを動的に活性化することで、再訓練を行わずに現場のT2I生成において専門家を柔軟に統合します。
The rapid growth of the text-to-image (T2I) community has fostered a thriving online ecosystem of expert models, which are variants of pretrained diffusion models specialized for diverse generative abilities. Yet, existing model merging methods remain limited in fully leveraging abundant online expert resources and still struggle to meet diverse in-the-wild user needs. We present DiffGraph, a novel agent-driven graph-based model merging framework, which automatically harnesses online experts and flexibly merges them for diverse user needs. Our DiffGraph constructs a scalable graph and organizes ever-expanding online experts within it through node registration and calibration. Then, DiffGraph dynamically activates specific subgraphs based on user needs, enabling flexible combinations of different experts to achieve user-desired generation. Extensive experiments show the efficacy of our method.
研究の動機と目的
- 大規模で進化するオンラインエキスパートエコシステムを活用してテキストから画像生成を向上させる。
- ノード登録と校正を備えた普遍的グラフを介してエキスパートの組織化を自動化する。
- 再訓練不要で、プロンプトに応じて異なる数・種類のエキスパートを動的に統合できる。
- 新しいエキスパートが登場してもスケーラブルなフレームワークを提供する。
提案手法
- オンラインプラットフォームをスクレイピングして各エキスパートをノードとして表現し、普遍的なエキスパートグラフを構築する。
- ノード登録を用いてエキスパートのホームページから定性的なスキル記述を生成し、テキスト埋め込みとして符号化する。
- ノード校正を用いて代表的な参照プロンプトでエキスパートの能力を定量化し、エッジ特徴を形成する。
- Expert Selection Agent (ESA) を用いてユーザープロンプトを解析し、CKPTとPEFTのエキスパート候補を取得し、LLMベースのレビューでフィルタリングする。
- 選択されたエキスパートの周囲にサブグラフを活性化し、ユーザープロンプトをノードとして付与する;Variational Graph Autoencoder (VGAE) を用いて各エキスパートのマージ係数(Beta分布)を予測する。
- VGAE予測係数に基づく重み付き組み合わせで選択CKPTおよびPEFTエキスパートを統合して、最終的なマージ済み拡散モデルを形成する。

実験結果
リサーチクエスチョン
- RQ1グラフベースのフレームワークは、オンラインT2Iエキスパートの大規模で進化する集合を自律的に組織し活用できるのか。
- RQ2VGAEベースのマージニングプランナーは、再訓練なしで多様なユーザープロンプトへ適応する高品質なマージ案を生み出せるのか。
- RQ3ダイナミックなサブグラフ活性化は、固定マージより生成品質と効率を改善するのか。
主な発見
| Methods | DABench_IR | DABench_HPS | DABench_AS | DABench_PS | DABench_CS | DiffusionDB_IR | DiffusionDB_HPS | DiffusionDB_AS | DiffusionDB_PS | DiffusionDB_CS |
|---|---|---|---|---|---|---|---|---|---|---|
| SD15 Direct | -18.27 | 23.88 | 5.81 | 18.62 | 78.94 | 14.83 | 23.74 | 5.87 | 19.61 | 82.70 |
| DARE [49] | -3.86 | 24.66 | 5.84 | 18.89 | 81.46 | 28.02 | 24.78 | 5.95 | 19.74 | 83.47 |
| Model Swarms [6] | 17.74 | 25.90 | 5.76 | 18.79 | 82.16 | 50.62 | 26.63 | 5.93 | 19.71 | 82.94 |
| Diffusion Soup [2] | -3.81 | 25.55 | 5.92 | 19.41 | 81.70 | 33.79 | 25.64 | 6.04 | 20.39 | 84.61 |
| Ours fixed | 23.14 | 28.37 | 6.21 | 20.17 | 83.71 | 54.83 | 27.67 | 6.20 | 20.48 | 85.13 |
| ESA ∗ +K-LoRA [27] | 19.33 | 25.99 | 5.97 | 19.48 | 84.31 | 27.14 | 25.42 | 6.10 | 19.94 | 85.16 |
| ESA ∗ +LoRA.rar [35] | 25.42 | 27.03 | 6.03 | 19.83 | 84.05 | 34.23 | 25.46 | 6.14 | 20.24 | 85.41 |
| AutoLoRA [21] | 26.51 | 27.41 | 6.04 | 19.96 | 82.97 | 35.62 | 25.56 | 6.15 | 20.17 | 83.02 |
| DiffAgent [55] | 29.94 | 27.83 | 6.36 | 20.28 | 84.19 | 52.65 | 27.52 | 6.39 | 20.31 | 84.84 |
| Ours | 73.11 | 30.06 | 6.54 | 20.62 | 84.79 | 85.40 | 29.48 | 6.66 | 21.05 | 85.86 |
| FLUX Direct | 84.20 | 29.81 | 6.16 | 20.57 | 80.82 | 91.14 | 29.40 | 6.13 | 20.67 | 79.12 |
| FLUX DARE | 95.74 | 29.60 | 6.20 | 20.54 | 81.58 | 100.21 | 28.87 | 6.18 | 20.87 | 79.79 |
| FLUX Model Swarms | 104.76 | 30.03 | 6.27 | 20.80 | 81.12 | 120.82 | 30.22 | 6.17 | 21.26 | 81.07 |
| FLUX Diffusion Soup | 88.26 | 29.77 | 6.22 | 20.64 | 80.63 | 115.24 | 30.03 | 6.10 | 21.25 | 78.95 |
- 提案手法のDiffGraphは、複数の画像品質指標で評価されたベンチマークにおいて最先端の性能を達成した。
- DABenchでは、Ours(DiffGraph)はベースラインやアブレーションと比較して複数の指標で最高スコアを取得した。
- DiffusionDBでは、DiffGraphは競争力のある性能を示し、いくつかのベースラインを上回る顕著な改善が見られた。
- 普遍的グラフ構築は数千のオンラインエキスパートへと拡張可能で、訓練なしで新しいエキスパートを組み込むことができる。
- 訓練は軽量なVGAEに集中しており、デプロイ後はシステムの残りは推論のみの状態を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。