[論文レビュー] Cones 2: Customizable Image Synthesis with Multiple Subjects
Cones 2 は、 subject 固有の残差トークン埋め込みとレイアウトガイド付きクロスアテンション機構を導入し、モデル再学習なしに複数のユーザー指定サブジェクトを柔軟に合成する。
Synthesizing images with user-specified subjects has received growing attention due to its practical applications. Despite the recent success in single subject customization, existing algorithms suffer from high training cost and low success rate along with increased number of subjects. Towards controllable image synthesis with multiple subjects as the constraints, this work studies how to efficiently represent a particular subject as well as how to appropriately compose different subjects. We find that the text embedding regarding the subject token already serves as a simple yet effective representation that supports arbitrary combinations without any model tuning. Through learning a residual on top of the base embedding, we manage to robustly shift the raw subject to the customized subject given various text conditions. We then propose to employ layout, a very abstract and easy-to-obtain prior, as the spatial guidance for subject arrangement. By rectifying the activations in the cross-attention map, the layout appoints and separates the location of different subjects in the image, significantly alleviating the interference across them. Both qualitative and quantitative experimental results demonstrate our superiority over state-of-the-art alternatives under a variety of settings for multi-subject customization.
研究の動機と目的
- 実世界アプリケーションにおける多サブジェクトカスタマイズ可能な画像合成を動機づける。
- 基本テキスト埋め込みの上に残差トークン埋め込みで効率的なサブジェクト表現を提案する。
- サブジェクト配置を制御し、サブジェクト間の干渉を低減するレイアウトベースの空間ガイダンスを導入する。
- 元のテキスト埋め込みを保持しつつサブジェクト固有の残差を学習する訓練目的を開発する。
- 6サブジェクトまでのスケーラビリティと、最新手法ベースラインと比較して競争力のある、または優れた性能を示す。
提案手法
- 各サブジェクトを、基本埋め込みをカスタマイズサブジェクトへシフトさせる残差トークン埋め込み Delta_custom で表現する。
- サブジェクト保存lossとテキスト埋め込み保存正則化を用いてサブジェクト固有のテキストエンコーダを訓練し、残差シフトをサブジェクトトークンに局在化する。
- Delta_custom を各サブジェクトごとに、サブジェクトを含む多数のキャプション間の平均埋め込み差分として計算する。
- 推論時には、複数の Delta_custom ベクトルを対応するサブジェクトトークンに加算して入力埋め込みを組み合わせる(モデル再訓練なし)。
- レイアウト事前情報を用いてクロスアテンションアクティベーションを補正することで配置をガイドし、ターゲットサブジェクト領域を強化し無関係領域を弱化する。
- サンプリング時にレイアウトガイド付きマスキングでクロスアテンションマップを編集し、時間ステップを超えてサブジェクト位置を制御する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルの再学習なしに、複数のユーザー指定サブジェクトを効率的に表現・組み合わせる方法は?
- RQ2基本テキスト埋め込みの上に置く単純な残差埋め込みは、信頼性の高い多サブジェクトのカスタマイズと構成を支援できるか?
- RQ3クロスアテンションを導くレイアウト事前情報を組み込むことは、サブジェクト配置を改善し属性干渉を減らすか?
- RQ4提案手法はより多くのサブジェクトや意味的に類似するサブジェクトへ拡張可能か?
- RQ5テキスト整合性・画像類似性・効率性の観点で、最先端ベースラインと比較してどの程度の性能を示すか?
主な発見
| Method | Text Alignment | Image Alignment | Storage | Complexity |
|---|---|---|---|---|
| Single Subject DreamBooth | 0.314 | 0.727 | 3.3 GB | O(n) |
| Single Subject Custom Diffusion | 0.327 | 0.721 | 72 MB | O(n) |
| Single Subject Cones | 0.331 | 0.722 | (1.43 ± 0.34) MB | O(n) |
| Single Subject Ours | 0.330 | 0.725 | 4.8 KB | O(n) |
| Two Subjects DreamBooth | 0.278 | 0.664 | 3.3 GB | O(n^2) |
| Two Subjects Custom Diffusion | 0.284 | 0.676 | 72 MB | O(n^2) |
| Two Subjects Cones | 0.292 | 0.685 | (3.41 ± 0.56) MB | O(n^2) |
| Two Subjects Ours | 0.309 | 0.708 | 9.6 KB | O(n) |
| Three Subjects DreamBooth | 0.252 | 0.649 | 3.3 GB | O(n^3) |
| Three Subjects Custom Diffusion | 0.270 | 0.658 | 72 MB | O(n^3) |
| Three Subjects Cones | 0.281 | 0.663 | (4.96 ± 0.70) MB | O(n^3) |
| Three Subjects Ours | 0.304 | 0.689 | 14.4 KB | O(n) |
| Four Subjects DreamBooth | 0.241 | 0.604 | 3.3 GB | O(n^4) |
| Four Subjects Custom Diffusion | 0.254 | 0.623 | 72 MB | O(n^4) |
| Four Subjects Cones | 0.271 | 0.638 | (7.75 ± 0.56) MB | O(n^4) |
| Four Subjects Ours | 0.299 | 0.673 | 19.2 KB | O(n) |
- 残差トークン埋め込みアプローチは、拡散モデルの再学習なしに複数サブジェクトの柔軟な構成を可能にする。
- テキスト埋め込み保存ロスはカスタマイズをサブジェクトトークンに局在化し、堅牢な多サブジェクト組み合わせを実現する。
- レイアウトガイド付きクロスアテンションの整列はサブジェクト配置を改善し、サブジェクト間の干渉を低減する。
- 本手法はDreamBooth、Custom Diffusion、Cones を上回り、最大6サブジェクトを含む難しいシナリオも含め良好な性能を示す。
- 単一・二・三・四サブジェクトの場合、提案手法はテキストと画像の整合性を競合力高く達成しつつ、格段に低いストレージと訓練コストを実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。