Skip to main content
QUICK REVIEW

[論文レビュー] HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

Nataniel Ruiz, Yuanzhen Li|arXiv (Cornell University)|Jul 13, 2023
Generative Adversarial Networks and Image Synthesis被引用数 14
ひとこと要約

HyperDreamBooth はハイパーネットワークを用いて、軽量で低ランクの個人化重み(LiDB)を拡散モデル向けに予測し、1枚の画像で約20秒、DreamBoothの25倍高速、かつモデルを約10,000倍小さくする形で対象者固有のT2Iパーソナライズを実現します。

ABSTRACT

Personalization has emerged as a prominent aspect within the field of generative AI, enabling the synthesis of individuals in diverse contexts and styles, while retaining high-fidelity to their identities. However, the process of personalization presents inherent challenges in terms of time and memory requirements. Fine-tuning each personalized model needs considerable GPU time investment, and storing a personalized model per subject can be demanding in terms of storage capacity. To overcome these challenges, we propose HyperDreamBooth - a hypernetwork capable of efficiently generating a small set of personalized weights from a single image of a person. By composing these weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth can generate a person's face in various contexts and styles, with high subject details while also preserving the model's crucial knowledge of diverse styles and semantic modifications. Our method achieves personalization on faces in roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual Inversion, using as few as one reference image, with the same quality and style diversity as DreamBooth. Also our method yields a model that is 10,000x smaller than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io

研究の動機と目的

  • 対象者の忠実性やスタイルの多様性を損なうことなく、テキストから画像へのモデルの高速でメモリ効率の良いパーソナライズを推進する。
  • Lightweight DreamBooth (LiDB) を導入し、個別化モデルサイズを劇的に削減。
  • 単一の対象画像から LiDB 重みを予測するハイパーネットワークを開発する。
  • ハイパーネットワーク初期化後に対象の詳細を高めるためのランク緩和高速ファインチューニングを提案する。

提案手法

  • 30Kパラメータ、約120 KB の個別重み空間を、低ランク LoRA 空間内のランダム直交不完全基底を用いて作成した Lightweight DreamBooth (LiDB) を導入する。
  • ViT エンコーダとトランスフォーマーデコーダを備え、単一の顔画像から LiDB 重み残差を反復的に予測するハイパーネットワークアーキテクチャを提示する。
  • 分野固有の画像上で、重み空間損失と拡散再構成損失を用いてハイパーネットワークを訓練し、簡単な監督プロンプト “a [V] face.” を使用する。
  • 初期化を洗練させるために重み残差の反復予測を行い、1回目のパスの後は画像エンコードを固定して訓練と推論を高速化する。
  • 高速ファインチューニング中に LoRA ランクを上げて高周波数の対象詳細を捉えるランク緩和ファインチューニングを適用する。
  • Stable Diffusion v1.5 で、クロスアテンションおよびセルフアテンション層残差と CLIP テキストエンコーダを予測して高速パーソナライズを実証する。
Figure 1 : Using only a single input image, HyperDreamBooth is able to personalize a text-to-image diffusion model 25x faster than DreamBooth [ 25 ] , by using (1) a HyperNetwork to generate an initial prediction of a subset of network weights that are then (2) refined using fast finetuning for high
Figure 1 : Using only a single input image, HyperDreamBooth is able to personalize a text-to-image diffusion model 25x faster than DreamBooth [ 25 ] , by using (1) a HyperNetwork to generate an initial prediction of a subset of network weights that are then (2) refined using fast finetuning for high

実験結果

リサーチクエスチョン

  • RQ1ハイパーネットワークは、単一画像から拡散モデルで高忠実度の対象個別化を可能にする、コンパクトな個別重みのセットを予測できるか?
  • RQ2LiDB はサイズ、速度、忠実度の点で DreamBooth および Textual Inversion とどう比較されるか?
  • RQ3ランク緩和ファインチューニングは速度を犠牲にせず、より高い対象忠実度を実現するか?
  • RQ4このアプローチは多様な対象とスタイリスティックなプロンプトに対して頑健か?

主な発見

手法Face Rec.DINOCLIP-ICLIP-T
Ours0.6550.4730.5770.286
DreamBooth0.6180.4410.5460.282
DreamBooth-Agg-10.6150.3230.4310.313
DreamBooth-Agg-20.6160.3600.4670.302
Textual Inversion0.6230.2890.4720.277
  • HyperDreamBooth は約20秒で対象個別化を実現し、DreamBoothのおおよそ25倍、Textual Inversionのおおよそ125倍高速です。
  • LiDB モデルは標準の DreamBooth モデルより約10,000倍小さく、約120 KB、約30K 学習可能変数。
  • ハイパーネットワーク導入による初期化と高速ファインチューニングは、DreamBooth と同等の対象忠実度と一貫したスタイル多様性を実現する。
  • ランク緩和ファインチューニングは一時的に LoRA ランクを上げることで細部の捕捉を改善し、速い実行時間を維持しつつ高い対象忠実度を可能にする。
  • 定量指標は、Face Rec.、DINO、CLIP-I、CLIP-T のスコアが DreamBooth および Textual Inversion より HyperDreamBooth の方が高いことを示している。
Figure 2 : HyperDreamBooth Training and Fast Fine-Tuning. Phase-1: Training a hypernetwork to predict network weights from a face image, such that a text-to-image diffusion network outputs the person’s face from the sentence "a [v] face" if the predicted weights are applied to it. We use pre-compute
Figure 2 : HyperDreamBooth Training and Fast Fine-Tuning. Phase-1: Training a hypernetwork to predict network weights from a face image, such that a text-to-image diffusion network outputs the person’s face from the sentence "a [v] face" if the predicted weights are applied to it. We use pre-compute

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。