[论文解读] Few-Shot Diffusion Models
论文引入 Few-Shot Diffusion Models (FSDM),将 DDPM 条件化为由集合编码器(ViT)处理的一组少量示例图像组成的集合,以实现快速少-shot 生成并迁移到未 seen 类。FSDM 在训练速度、样本质量和对未见类别的迁移方面优于无条件和条件基线。
Denoising diffusion probabilistic models (DDPM) are powerful hierarchical latent variable models with remarkable sample generation quality and training stability. These properties can be attributed to parameter sharing in the generative hierarchy, as well as a parameter-free diffusion-based inference procedure. In this paper, we present Few-Shot Diffusion Models (FSDM), a framework for few-shot generation leveraging conditional DDPMs. FSDMs are trained to adapt the generative process conditioned on a small set of images from a given class by aggregating image patch information using a set-based Vision Transformer (ViT). At test time, the model is able to generate samples from previously unseen classes conditioned on as few as 5 samples from that class. We empirically show that FSDM can perform few-shot generation and transfer to new datasets. We benchmark variants of our method on complex vision datasets for few-shot learning and compare to unconditional and conditional DDPM baselines. Additionally, we show how conditioning the model on patch-based input set information improves training convergence.
研究动机与目标
- 为现实、复杂的视觉数据提供可行的少-shot 生成动机与能力。
- 提出通过 Vision Transformer 聚合集合信息的条件化机制。
- 开发一个两组件模型:一个构建集合表示的上下文网络,以及一个条件扩散模型。
- 证明在训练效率、样本质量和对未见类别的迁移方面优于基线。
提出的方法
- 定义一个条件扩散框架 p_theta(x0:T | X),通过上下文 c = h_phi(X) 对集合 X 条件化。
- 使用基于 ViT 的上下文编码器(sViT)处理图像分块集合并生成每个集合的上下文令牌。
- 探索条件化机制(FiLM 和 Learnable Attentive Conditioning, LAC)以将上下文 c 与 DDPM 特征融合。
- 在每层损失 L^c_{t-1} 的条件化下进行训练,基于预测噪声 epsilon,加上一个固定的无条件项 L^c_T。
- 提供两种上下文形式:输入相关(针对具体输入进行条件化)和输入无关;为更好的分布外条件化,选择输入相关。
- 可选讨论引入潜在集合变量 c 的变分 FSDM(VFSDM),尽管在实践中表现不佳。
实验结果
研究问题
- RQ1一个基于集合的条件化机制是否能够使 DDPM 在极少数据的情况下对未见类别进行少-shot 生成?
- RQ2基于 ViT 的集合编码器结合 Learnable Attentive Conditioning 是否比 FiLM 提高了条件化表达能力?
- RQ3FSDM 与基线在分布内/分布外性能以及对不同数据集的迁移表现如何?
- RQ4在训练时对条件化与采样时的条件化对新颖、复杂对象的少-shot 生成有何影响?
主要发现
- FSDM 在新类别和新数据集的少-shot 生成方面优于无条件及条件 DDPM 基线。
- 基于令牌的上下文表示与跨注意力条件化提升了去噪质量和样本多样性。
- 使用输入相关的上下文进行训练在分布外条件化和迁移性能上表现更好。
- FSDM 在 CIFAR100 和 miniImageNet 情景中实现更快的收敛和更高的样本保真度指标(相对于基线)。
- FSDM 展示了对未见数据集的可迁移少-shot 生成,在多个设置中优于如 ILVR 等采样时条件化的基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。