[論文レビュー] Inserting Anybody in Diffusion Models via Celeb Basis
単一の写真と1024個の学習可能係数を用いて新しいアイデンティティを事前学習済みの拡散モデルに挿入する Celeb Basis を導入し、迅速なパーソナライズと新しいアイデンティティ間のインタラクションを可能にします。
Exquisite demand exists for customizing the pretrained large text-to-image model, $ extit{e.g.}$, Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just $ extbf{one facial photograph}$ and only $ extbf{1024 learnable parameters}$ under $ extbf{3 minutes}$. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
研究の動機と目的
- 事前学習済みのテキスト-画像拡散モデルへ人間のアイデンティティをシームレスかつ正確に挿入することを動機づける。
- セレブリティのテキスト埋め込みから派生したコンパクトで共有可能な基底(Celeb Basis)を開発し、新しいアイデンティティを表現する。
- 既存の概念構成を保ちながら、最小パラメータと高速な学習時間で単一写真によるパーソナライズを実現する。
提案手法
- 691人のセレブ名の埋め込みをCLIP/テキスト埋め込みで用い、PCAを適用して各アイデンティティに対してコンパクトな二名基底を得ることで Celeb Basis を構築する。
- 新しいアイデンティティを、二名基底(名と姓)に適用された PCA ベースの係数の組として表現する。成分数は p=512。
- 1 枚の入力写真を512次元のアイデンティティ事前情報に写像する顔認識エンコーダを使用し、次にこの事前情報を Celeb Basis の係数へ写像する小さな MLP を学習する。
- 拡散モデルのパラメータ(UNet とテキストエンコーダ)を固定し、学習は 1024 Celeb Basis の係数のみ行い、元のモデルの能力を忘れないようにする。
- データ拡張を行い、単純な拡散デノイジング損失を用いて MLP 投影係数を最適化し、NVIDIA A100 で3分未満に達成する。
- 共有マッピングモジュールを用いて複数のアイデンティティを同時に最適化し、相互作用を可能にする共同最適化へ拡張する。
実験結果
リサーチクエスチョン
- RQ1有名人の名前埋め込みから構成された Celeb Basis は、単一の画像から新しいアイデンティティを安定的かつ制御可能に挿入することをサポートできるか?
- RQ2PCA ベースの係数表現は、従来のパーソナライゼーション手法と比べてアイデンティティの保持と概念の組み合わせを改善するか?
- RQ3本手法は、複数アイデンティティの学習と新たに追加されたアイデンティティ間の相互作用を、基盤モデルの能力を劣化させることなくサポートできるか?
主な発見
- Celeb Basis により新しいアイデンティティを表現する 1024 個の係数を有効にし、固定した拡散モデルで約3分で訓練できる。
- セレブ埋め込み空間の補間は妥当な人間の顔を生み出すことができ、概念の組み合わせ能力が高いことを示す。
- Textural Inversion、Dreambooth、Custom Diffusion と比較して、提案手法は同等程度のアイデンティティ保持とプロンプト整合を、はるかに少ない学習可能パラメータで達成する。
- このアプローチは複数のアイデンティティを共同で学習し、それらの間の相互作用を可能にする。従来手法では達成が難しかった点である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。