[論文レビュー] ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
ELITE は、グローバルおよびローカルマッピングネットワークを用いて視覚概念をテキスト埋め込みへと変換する学習ベースのエンコーダを訓練し、事前学習済み拡散モデルを用いた高速・正確・編集可能なカスタマイズ済みテキスト to イメージ生成を実現します。
In addition to the unprecedented ability in imaginary creation, large text-to-image models are expected to take customized concepts in image generation. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder, which consists of a global and a local mapping networks for fast and accurate customized text-to-image generation. In specific, the global mapping network projects the hierarchical features of a given image into multiple new words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with existing optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables high-fidelity inversion and more robust editability with a significantly faster encoding process. Our code is publicly available at https://github.com/csyxwei/ELITE.
研究の動機と目的
- 少数の概念画像セットから高速で正確なカスタマイズ済みテキストtoイメージ生成を可能にする。
- 最適化ベースの概念学習を学習ベースのエンコーダに置換する。
- 多層CLIP特徴を活用して頑健で編集可能な主要概念語を作成する。
- ローカルマッピングネットワークを組み込み、編集可能性を損なうことなく詳細な位置情報を注入する。
- 既存手法に対して速度が優れており、忠実度/編集可能性が競合することを示す。
提案手法
- 概念画像から階層的特徴を抽出するために事前学習済みのCLIP画像エンコーダを使用する。
- CLIP特徴から複数の語埋め込みを生成するグローバルマッピングネットワークを学習させ、主要語と乱れの補助語を形成する。
- 前景の詳細をテキスト特徴空間にエンコードし、クロスアテンションを介して注入して局所的な詳細を保持するローカルマッピングネットワークを学習させる。
- グローバルおよびローカル埋め込みをStable Diffusionにクロスアテンション投影を通じて結び付け、生成を誘導する。編集時には主要語のみを使用する。
- 埋め込みの拡散ロスとL1正則化の組み合わせで最適化する(L_global = L_LDM + lambda_global ||v||_1; L_local = L_LDM + lambda_local ||V^l||_1)。
- 推論時には主要語 w0 を用いて概念を生成し、忠実度のために局所的な詳細の統合を任意で行う。
実験結果
リサーチクエスチョン
- RQ1エンコーダは、最適化ベースの方法よりも速く視覚概念を編集可能なテキスト埋め込みに写像することを学習できるか。
- RQ2多層・多語のグローバルマッピングは、単語埋め込みよりも編集性と忠実度を改善するか。
- RQ3ローカルマッピングネットワークは、主要概念の編集能力を損なうことなく微細な詳細を注入できるか。
- RQ4ELITE は速度、テキスト整合性、画像整合性の点で既存手法と比較してどうか。
主な発見
| Method | CLIP-T (↑) | CLIP-I (↑) | DINO-I (↑) | Time (↓) |
|---|---|---|---|---|
| Textual Inversion [15] | 0.183 | 0.663 | 0.462 | 50 min |
| DreamBooth [33] | 0.251 | 0.785 | 0.674 | 15 min |
| Custom Diffusion [18] | 0.245 | 0.801 | 0.695 | 6 min |
| Ours | 0.255 | 0.762 | 0.652 | 0.05s |
- ELITE は概念エンコーディングを高速に実現し、最適化ベースの方法の約0.05秒で完了する。
- 多層・多語グローバルマッピングは、単層・単語バリアントよりも編集可能な主要語と概念忠実度を向上させる。
- ローカルマッピングネットワークの組み込みは、局所的な詳細の一貫性を改善しつつ、編集可能性への影響を控えめに留める。
- ELITE はテキスト整合性と画像整合性で競合しつつ、Textual Inversion、DreamBooth、Custom Diffusion と比較してエンコード時間を大幅に短縮する。
- ユーザ調査では、編集整合性と全体的な満足度において ELITE が強い嗜好を示し、 competing 手法と比較して画像レベルの忠実度も同等である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。