Skip to main content
QUICK REVIEW

[論文レビュー] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Nataniel Ruiz, Yuanzhen Li|arXiv (Cornell University)|Aug 25, 2022
Generative Adversarial Networks and Image Synthesis被引用数 108
ひとこと要約

DreamBoothは、少数の被写体画像を用いて事前学習済みのテキストから画像への拡散モデルを微調整し、その被写体に固有の識別子を結びつけることで、独自性のある文脈豊かなレンダリングを可能にしつつ、被写体の同一性を維持します。

ABSTRACT

Large text-to-image models achieved a remarkable leap in the evolution of AI, enabling high-quality and diverse synthesis of images from a given text prompt. However, these models lack the ability to mimic the appearance of subjects in a given reference set and synthesize novel renditions of them in different contexts. In this work, we present a new approach for "personalization" of text-to-image diffusion models. Given as input just a few images of a subject, we fine-tune a pretrained text-to-image model such that it learns to bind a unique identifier with that specific subject. Once the subject is embedded in the output domain of the model, the unique identifier can be used to synthesize novel photorealistic images of the subject contextualized in different scenes. By leveraging the semantic prior embedded in the model with a new autogenous class-specific prior preservation loss, our technique enables synthesizing the subject in diverse scenes, poses, views and lighting conditions that do not appear in the reference images. We apply our technique to several previously-unassailable tasks, including subject recontextualization, text-guided view synthesis, and artistic rendering, all while preserving the subject's key features. We also provide a new dataset and evaluation protocol for this new task of subject-driven generation. Project page: https://dreambooth.github.io/

研究の動機と目的

  • 少数の画像から特定の被写体を模倣するように、テキストツーイメージ拡散モデルをどのようにパーソナライズするかを検討する。
  • 特定の被写体に固有の識別子を結びつけ、それをテキストプロンプトに導かれた新しい文脈で合成できるようにする。
  • ファインチューニング中の言語ドリフトと多様性の喪失を、クラス特異的な prior preservation loss を用いて緩和する。
  • 被写体の再文脈化、視点合成、芸術的レンダリングを、被写体忠実度を保ちながらデモンストレーションする。
  • 被写体主導生成のためのデータセットと評価プロトコルを提供する。

提案手法

  • 3-5 枚の被写体画像と、固有識別子とクラス名を含むプロンプト(例: “A [V] dog”)を組み合わせて、事前学習済み拡散モデルを微調整する。
  • 被写体を珍しいトークン識別子で表現し、一般的な言語からの事前情報を最小化して被写体への結びつきを促進する。
  • クラス特異的な prior preservation loss を用いて、モデルを自分自身が生成したサンプルで監視し、言語ドリフトを防ぎつつ prior の多様性を保持する。
  • 適切なハードウェアで約1000回程度の modest iteration を前提に、全層を訓練して忠実度を最大化し、出力の多様性を可能にする。
  • DINO と CLIP-I で被写体忠実度を評価し、CLIP-T でプロンプト忠実度を評価し、ベースラインと比較するユーザ study を実施する。
  • 被写体主導生成のデータセットとして、30 被写体(物体とライブ被写体)と 25 のプロンプト、各被写体/プロンプトにつき4枚の画像(約3,000枚の画像)を提供する。
Figure 2 : Subject-driven generation. Given a particular clock (left), it is hard to generate it while maintaining high fidelity to its key visual features (second and third columns showing DALL-E2 [ 54 ] image-guided generation and Imagen [ 61 ] text-guided generation; text prompt used for Imagen:
Figure 2 : Subject-driven generation. Given a particular clock (left), it is hard to generate it while maintaining high fidelity to its key visual features (second and third columns showing DALL-E2 [ 54 ] image-guided generation and Imagen [ 61 ] text-guided generation; text prompt used for Imagen:

実験結果

リサーチクエスチョン

  • RQ1数枚の画像だけで、拡散モデルを特定の被写体に個別化しても、元の知識を失わずにいられるのか。
  • RQ2希少識別子トークンを被写体に結びつけると、新しい文脈で忠実かつ多様な生成が可能になるのか。
  • RQ3クラス特異的な prior preservation loss は、ファインチューニング中の言語ドリフトを防ぎ、 prior の多様性を維持するのにどれほど効果的か。
  • RQ4DreamBooth は既存のベースラインと比較して、被写体忠実度とプロンプト忠実度の面でどの程度の定量的・人間評価上の利得をもたらすか。
  • RQ5被写体主導生成の性能を現実的に測るデータセットと評価プロトコルは何か。

主な発見

手法DINO ↑CLIP-I ↑CLIP-T ↑
Real Images0.7740.885N/A
DreamBooth (Imagen)0.6960.8120.306
DreamBooth (Stable Diffusion)0.6680.8030.305
Textual Inversion (Stable Diffusion)0.5690.7800.255
  • DreamBooth with Imagen は DreamBooth with Stable Diffusion より被写体忠実度とプロンプト忠実度の双方で高く、Textual Inversion よりも優れている。
  • ユーザー調査では、複数のプロンプトに対して DreamBooth が Textual Inversion より被写体忠実度およびプロンプト忠実度の点で好まれる。
  • 自生的 prior preservation loss は言語ドリフトを抑え、 prior の多様性を維持するのに役立ち、より多様な被写体表現を可能にする。
  • 提案された損失での訓練は、適切なハードウェア上で約5分程度で3-5枚の画像のパーソナライズを効果的に行える。
  • DreamBooth は被写体の再文脈化、新規視点の合成、属性変更を可能にしつつ被写体の同一性を維持する。
  • 被写体主導生成の将来の研究を支援する、新しいデータセットと評価プロトコルが提供される。
Figure 3 : Fine-tuning. Given $\sim 3-5$ images of a subject we fine-tune a text-to-image diffusion model with the input images paired with a text prompt containing a unique identifier and the name of the class the subject belongs to (e.g., “A [V] dog”), in parallel, we apply a class-specific prior
Figure 3 : Fine-tuning. Given $\sim 3-5$ images of a subject we fine-tune a text-to-image diffusion model with the input images paired with a text prompt containing a unique identifier and the name of the class the subject belongs to (e.g., “A [V] dog”), in parallel, we apply a class-specific prior

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。