[論文レビュー] Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
Mix-of-Showは、単一クライアント概念チューニングのためのED-LoRAと、中心ノード融合のための勾配フュージョンを導入し、拡散モデルの分散型マルチ概念カスタマイズを可能にする。さらに、マルチ概念生成の地域的に制御可能なサンプリングを提供する。
Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.
研究の動機と目的
- データ共有なしで複数のユーザー特有の概念を組み合わせる、分散型マルチ概念カスタマイズを動機づける。
- 既存のLoRAフュージョンにおける概念衝突とアイデンティティ喪失を重要な課題として特定する。
- ED-LoRAを提案し、同一ドメイン内の埋め込みを豊かにし、融合時の概念アイデンティティを保持するための勾配フュージョンを提供する。
- マルチ概念生成における属性結合と欠損オブジェクトの問題に対処するため、地域的に制御可能なサンプリングを導入する。
提案手法
- 単一クライアント概念チューニングのための埋め込み分解LoRA(ED-LoRA)を提案し、レイヤー単位および複数語埋め込みを用いて同一ドメインの本質を保持する。
- 中心ノードで勾配フュージョンを用いて複数の概念LoRAを融合し、融合された勾配を介して単一概念推論挙動を揃える。
- 属性結合を正しく保つマルチ概念生成を支援するため、地域意識のあるクロスアテンションを用いた地域的に制御可能なサンプリングを採用する。
- 埋め込みとLoRAウェイトの比較を分析し、概念アイデンティティを分離し、融合時の衝突を軽減する。
- 単一およびマルチ概念設定で LoRA、Custom Diffusion、P+ と比較する。
実験結果
リサーチクエスチョン
- RQ1概念衝突とアイデンティティ喪失を生じずに、分散型マルチ概念カスタマイズをどのように実現できるか?
- RQ2埋め込み焦点のチューニングと勾配ベースの中心フュージョンで理論上、無限の概念フュージョンをサポートできるか?
- RQ3地域的に制御可能なサンプリングは、マルチ概念生成における属性結合とオブジェクトの出現を改善するか?
主な発見
- ED-LoRAは埋め込み内の同一ドメインの本質をより多く保持し、概念衝突を低減する。
- 勾配フュージョンは、ウェイトフュージョンと比較してマルチ概念フュージョン時のアイデンティティ喪失を著しく低減する。
- 地域的に制御可能なサンプリングは、マルチ概念生成における正確な属性結合とオブジェクトの出現を改善する。
- Mix-of-Showは、中心ノード融合時に個々の概念アイデンティティの保持をベースライン手法よりも改善する。
- 実験は、マルチ概念シナリオにおいてMix-of-Showが画像整合性で優れ、テキスト整合性も競合力を維持することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。