[論文レビュー] DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation
DisenBoothは、主体駆動のT2I生成の同一性を保持する分離型チューニングを導入し、補助目的を用いて同一性保持とプロンプト忠実度を向上させる、別個のテキストの同一性を保持する埋め込みと視覚の同一性に依存しない埋め込みを用います。
Subject-driven text-to-image generation aims to generate customized images of the given subject based on the text descriptions, which has drawn increasing attention. Existing methods mainly resort to finetuning a pretrained generative model, where the identity-relevant information (e.g., the boy) and the identity-irrelevant information (e.g., the background or the pose of the boy) are entangled in the latent embedding space. However, the highly entangled latent embedding may lead to the failure of subject-driven text-to-image generation as follows: (i) the identity-irrelevant information hidden in the entangled embedding may dominate the generation process, resulting in the generated images heavily dependent on the irrelevant information while ignoring the given text descriptions; (ii) the identity-relevant information carried in the entangled embedding can not be appropriately preserved, resulting in identity change of the subject in the generated images. To tackle the problems, we propose DisenBooth, an identity-preserving disentangled tuning framework for subject-driven text-to-image generation. Specifically, DisenBooth finetunes the pretrained diffusion model in the denoising process. Different from previous works that utilize an entangled embedding to denoise each image, DisenBooth instead utilizes disentangled embeddings to respectively preserve the subject identity and capture the identity-irrelevant information. We further design the novel weak denoising and contrastive embedding auxiliary tuning objectives to achieve the disentanglement. Extensive experiments show that our proposed DisenBooth framework outperforms baseline models for subject-driven text-to-image generation with the identity-preserved embedding. Additionally, by combining the identity-preserved embedding and identity-irrelevant embedding, DisenBooth demonstrates more generation flexibility and controllability
研究の動機と目的
- 主体の同一性と背景・姿勢の混在を解消することで、主体駆動のText-to-Image生成の改善を動機づける。
- 主体の同一性を別個に保持し、同一性に関連しない情報を捉える分離型チューニングフレームワークを提案する。
- 拡散モデルのファインチューニング中に分離を強制する補助目的を開発する。
- アダプターとLoRAを用いたパラメータ効率の高いファインチューニングを実現する。
- ベースライン手法を上回る生成品質と制御性を示す。
提案手法
- 事前に学習済みの拡散モデルを使用し、ノイズ除去過程でファインチューニングを行う。
- 特別なプロンプト P_s と CLIP テキストエンコーダを用いて、同一性を保持するテキスト埋め込み f_s を抽出する。
- アダプター強化されたCLIP画像エンコーダを用いて、各画像から同一性に依存しない視覚埋め込み f_i を抽出する。
- L1+L2+L3を組み合わせたジョイント損失を最適化する:f_s+f_iを用いた高精度デノイズ、f_sを用いた弱いデノイズ、分離を促進する対比的埋め込み目的。
- U-Netとアダプターに対してLoRAベースのパラメータ効率の高いファインチューニングを適用し、学習可能パラメータを削減する。
- 生成時にはf_sをテキストプロンプトと組み合わせて主体駆動の出力を得る一方、オプションでη f_iを混ぜて参照画像の特徴を転移させる。
実験結果
リサーチクエスチョン
- RQ1拡散ベースのT2I生成において、主体の同一性を保持しつつ柔軟なテキスト駆動のカスタマイズを実現できるか。
- RQ2同一性を保持するテキスト情報を同一性に依存しない視覚情報と分離することは、プロンプト忠実度と同一性保持を改善するか。
- RQ3パラメータ効率の高いファインチューニング(LoRA/アダプター)が分離された埋め込みと競争力のある結果を達成できるか。
- RQ4提案された弱ノイズ除去と対照的埋め込み目的は、分離と生成品質にどのような影響を与えるか。
主な発見
| DINO Score | CLIP-T Score | User Avg. Rank |
|---|---|---|
| 0.675 | 0.330 | 1.589 |
| 0.362 | 0.352 | - |
| 0.605 | 0.303 | 2.893 |
| 0.546 | 0.318 | 3.072 |
| 0.685 | 0.319 | 2.445 |
- DisenBoothは、ベースラインと比較して高いテキストプロンプト忠実度(CLIP-T)を達成しつつ主体同一性(DINO)を保持する。
- DisenBoothはTI、DreamBooth、InstructPix2Pixより主観的なユーザー評価で優れている。
- アブレーションにより、f_sが同一性を、f_iが背景/姿勢の特徴を捉え、参照特徴の柔軟な継承を可能にすることを確認した。
- f_sとη f_iの組み合わせは、背景への過剰適合を避けつつ参照特徴の制御可能な転移を可能にする。
- ファインチューニングには約2.9Mパラメータ(LoRA+アダプター)が必要で、フルU-Netチューニングと比して効率的である。
- DreamBenchでの実験は、評価対象手法の中で最も良い総合的な主体駆動生成をDisenBoothが達成したことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。