Skip to main content
QUICK REVIEW

[论文解读] Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

Xuhui Jia, Yang Zhao|arXiv (Cornell University)|Apr 5, 2023
Generative Adversarial Networks and Image Synthesis被引用 21
一句话总结

本文提出一个框架,通过在预训练扩散模型之上使用一个面向对象的编码器以及一个正则化的联合训练策略,在仅用一张图像的情况下实现对目标对象的个性化图像生成,且无需测试时优化。

ABSTRACT

This paper proposes a method for generating images of customized objects specified by users. The method is based on a general framework that bypasses the lengthy optimization required by previous approaches, which often employ a per-object optimization paradigm. Our framework adopts an encoder to capture high-level identifiable semantics of objects, producing an object-specific embedding with only a single feed-forward pass. The acquired object embedding is then passed to a text-to-image synthesis model for subsequent generation. To effectively blend a object-aware embedding space into a well developed text-to-image model under the same generation context, we investigate different network designs and training strategies, and propose a simple yet effective regularized joint training scheme with an object identity preservation loss. Additionally, we propose a caption generation scheme that become a critical piece in fostering object specific embedding faithfully reflected into the generation process, while keeping control and editing abilities. Once trained, the network is able to produce diverse content and styles, conditioned on both texts and objects. We demonstrate through experiments that our proposed method is able to synthesize images with compelling output quality, appearance diversity, and object fidelity, without the need of test-time optimization. Systematic studies are also conducted to analyze our models, providing insights for future work.

研究动机与目标

  • 在不进行逐对象微调的情况下,推动可扩展的个性化图像合成。
  • 开发一个对象嵌入框架,以对预训练的文本到图像模型进行条件化。
  • 在整合对象嵌入的同时,维持编辑能力和身份保真。
  • 通过字幕描述进行数据增强以提升对象特定的生成。
  • 展示在单次前向传播中实现多样风格与对象的生成,同时降低存储和计算成本。

提出的方法

  • 在冻结的预训练扩散模型中插入跨注意力模块,以对对象嵌入进行条件化。
  • 使用冻结的 CLIP 图像编码器(对象编码器)和冻结的 T5-XXL 文本编码器来获得嵌入。
  • 应用带有交叉参考正则化的正则化联合训练方案,以保持可编辑性和对象保真度。
  • 实现对象嵌入掩码,将对象身份与背景分离。
  • 使用 PaLI 和属性分类器生成描述性字幕,以创建领域特定的训练字幕(自动字幕生成)。
  • 对整个网络端到端训练(不仅是新增的注意力),以实现对对象嵌入的有效使用。

实验结果

研究问题

  • RQ1单个对象嵌入是否足以在不进行测试时优化的情况下实现个性化生成?
  • RQ2如何在不丢失语言引导编辑能力的前提下,将对象嵌入与预训练扩散模型整合?
  • RQ3哪些训练策略在保持文本可控性的同时保留对象身份?
  • RQ4自动字幕生成是否提升对象特定合成的质量与多样性?
  • RQ5哪种编码器选择最能捕捉高层次的对象概念以实现稳健的个性化?

主要发现

  • 所提出的方法在单次前向传播中提供高质量的个性化图像,在身份保留和提示对齐方面优于 Textual Inversion、DreamBooth 和 InstructPix2Pix。
  • 基于 CLIP 的对象嵌入在身份保留和外观变化方面优于基于 VGG 的编码器。
  • 跨参考正则化通过将对象身份与图像特定线索解耦,提升身份保真度和多样性。
  • 整个网络微调比仅训练新增的注意力层在身份保留方面效果更好。
  • 自动字幕生成弥合通用数据集与领域数据集之间的域差,改善文本-图像对齐和对象保真度。
  • 该方法保持高效且可扩展,因为它避免了逐对象优化,并保持无论对象数量多少的固定存储成本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。