QUICK REVIEW

[論文レビュー] InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

Jing Shi, Wei Xiong|arXiv (Cornell University)|Apr 6, 2023

Multimodal Machine Learning Applications被引用数 21

ひとこと要約

InstantBooth は、入力画像をテキスト概念に変換し、フローズン事前学習拡散モデルへアダプター層を介して豊かな視覚特徴を注入することで、テスト時のファインチューニングなしに、即時で同一性を保つ個別化テキスト-to-画像生成を実現します。

ABSTRACT

Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.

研究の動機と目的

入力画像の一般的な概念を学習可能な画像エンコーダを介してテキスト埋め込みへ写像することにより学習する。
フローズンな事前学習済み拡散モデルにアダプター層を介して豊かなパッチ特徴を注入し、細かな同一性の詳細を保持する。
同一概念をペアリングした画像を要求せず、テキスト-画像ペアの学習のみで訓練し、見たことのない概念への一般化を可能にする。
ファインチューニングベースのパーソナライズ手法よりはるかに高速な推論で、言語-画像の整合性と同一性保持を競合的に達成する。

提案手法

Learnable image encoder を用いて入力画像をコンパクトなテキスト概念埋め込みへ変換し、画像ごとに特徴を平均化する。
プロンプトへ一意の識別子を挿入し、その埋め込みを CLIP ベースのテキスト埋め込み内の概念埋め込みと置換する。
frozen U-Net の自己注意・クロス注意ブロック間に学習可能なアダプター層を追加し、入力画像からの豊かなパッチ特徴を注入しつつ、ベースモデルを凍結する。
推論時のファインチューニングなしで、拡散モデルのデノイジング損失を用いてアダプターと画像エンコーダーのヘッドのみを訓練する。
概念トークンの正規化とバランスの取れたアダプター重み付け（beta）を用いて、言語-画像の整合性を維持しつつ同一性を保持する。

実験結果

リサーチクエスチョン

RQ1未見概念に対してテスト時ファインチューニングなしで個人化テキスト-to-画像生成を実現できるか。
RQ2方法は対象の同一性をどれだけうまく保持しつつ、言語誘導生成品質を維持できるか。
RQ3同一性保持と言語-画像の整合性のトレードオフはどうあり、推論時にどのように制御できるか。
RQ4提案手法はファインチューニングベースの方法と比べて速度と忠実度の点でどうか。
RQ5推論時に入力画像の数が変動しても再学習なしで対応できるか。

主な発見

方法	整合性 ↑	顔距離 ↓	再構成 ↑	時間 (秒) ↓
Textual Inversion (TI)	0.2556	1.5462	0.7832	~1500
DreamBooth (DB)	0.3088	1.2281	0.8335	~600
本手法	0.3140	1.1901	0.7329	6
本手法 + M	0.3135	1.1899	-	6

本手法は、DreamBooth と Textual Inversion と比較して競争力のある整合性と同一性保持を実現し、テスト時ファインチューニングを必要としない。
推論はファインチューニングベースのパーソナライゼーション手法より100倍高速である。
豊かなパッチ特徴をアダプター経由で統合することで、凍結済みの事前学習生成器を変更せずに細かな同一性保持を実現できる。
概念の正規化とバランスの取れた beta パラメータは言語理解を向上させ、言語忘却を減少させる。
本手法は未見概念と複数入力画像をサポートし、プロンプト間で高忠実度・同一性整合性の画像を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。