QUICK REVIEW

[论文解读] InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

Jing Shi, Wei Xiong|arXiv (Cornell University)|Apr 6, 2023

Multimodal Machine Learning Applications被引用 21

一句话总结

InstantBooth 实现即时、身份保持的个性化文本到图像生成，无需在测试时进行微调，将输入图像转换为文本概念，并通过适配器层将丰富的视觉特征注入到冻结的预训练扩散模型中。

ABSTRACT

Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.

研究动机与目标

通过可学习的图像编码器将输入图像映射到文本嵌入来学习输入图像的一般概念。
通过在冻结的预训练扩散模型中通过适配器层注入丰富的视觉补丁特征来保留细粒度的身份细节。
仅在文本-图像对上训练，不需要成对的同概念图像，从而实现对未见概念的泛化。
在比微调驱动的个性化方法显著更快的推理速度下，实现具有竞争力的语言-图像对齐和身份保持。

提出的方法

使用可学习的图像编码器将输入图像转换为紧凑的文本概念嵌入，并对图像的特征取平均。
在提示中插入唯一标识符，并在基于 CLIP 的文本嵌入中用概念嵌入替换其嵌入。
在冻结的 U-Net 的自注意和交叉注意块之间添加可训练的适配器层，以在冻结基础模型的同时注入来自输入图像的丰富补丁特征。
仅训练适配器和图像编码器头，使用扩散模型的去噪损失，在测试时不进行微调。
使用概念标记重归一化和一个平衡的适配器权重系数（beta），在保持身份的同时维持语言-图像对齐。

实验结果

研究问题

RQ1在未看到的概念上，是否可以在没有测试时微调的情况下实现个性化文本到图像生成？
RQ2该方法在保持语言引导生成质量的同时，能多大程度上保留主体身份？
RQ3身份保留与语言-图像对齐之间的权衡是什么，推理阶段如何控制？
RQ4在速度和保真度方面，所提方法与基于微调的方法相比如何？
RQ5在推理阶段能否处理不同数量的输入图像而无需重新训练？

主要发现

方法	对齐 ↑	人脸距离 ↓	重建 ↑	时间 (s) ↓
Textual Inversion (TI)	0.2556	1.5462	0.7832	~1500
DreamBooth (DB)	0.3088	1.2281	0.8335	~600
Ours	0.3140	1.1901	0.7329	6
Ours + M	0.3135	1.1899	-	6

在不需要测试时微调的情况下，该方法在对齐和身份保持方面与 DreamBooth 和 Textual Inversion 相竞争。
推理速度比基于微调的个性化方法快 100 倍。
基于适配器的丰富补丁特征集成在不改变冻结的预训练生成器的情况下实现了细粒度的身份保持。
概念重归一化和平衡的 beta 参数提升了语言理解并降低语言遗忘。
该方法支持未见概念和多输入图像，在不同提示下生成高保真、身份一致的图像。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。