[论文解读] In-Context Learning Unlocked for Diffusion Models
Prompt Diffusion 通过在六个任务上训练的视觉-语言提示,实现在扩散式生成模型中的上下文学习,从而实现对未见任务的泛化以及文本引导的编辑。
We present Prompt Diffusion, a framework for enabling in-context learning in diffusion-based generative models. Given a pair of task-specific example images, such as depth from/to image and scribble from/to image, and a text guidance, our model automatically understands the underlying task and performs the same task on a new query image following the text guidance. To achieve this, we propose a vision-language prompt that can model a wide range of vision-language tasks and a diffusion model that takes it as input. The diffusion model is trained jointly over six different tasks using these prompts. The resulting Prompt Diffusion model is the first diffusion-based vision-language foundation model capable of in-context learning. It demonstrates high-quality in-context generation on the trained tasks and generalizes effectively to new, unseen vision tasks with their respective prompts. Our model also shows compelling text-guided image editing results. Our framework aims to facilitate research into in-context learning for computer vision. We share our code and pre-trained models at https://github.com/Zhendong-Wang/Prompt-Diffusion.
研究动机与目标
- 阐明在超越自然语言处理的视觉任务中使用上下文学习的必要性。
- 提出一种视觉-语言提示设计,将任务示例与查询耦合。
- 将 Prompt Diffusion 构建为基于扩散的视觉-语言基础模型。
- 展示上下文学习能力及对未见任务的泛化。
- 展示可控的文本引导图像编辑能力。
提出的方法
- 引入一个多模态视觉-语言提示,编码文本引导、一个示例对 (image1 -> image2) 以及一个图像查询 (image3),以生成目标图像 image4。
- 通过调整 ControlNet 与 Stable Diffusion 架构以接受视觉-语言提示来构建 Prompt Diffusion。
- 从 Stable Diffusion v1.5 的检查点微调 Prompt Diffusion,覆盖六个视觉-语言任务(三个前向、三个逆向)。
- 在任务上进行联合训练,随机抽样提示以促进跨多个领域的上下文学习。
- 训练期间应用 classifier-free 指导,文本引导 dropout 率为 10% 以提高鲁棒性。
- 通过对逆向任务使用零-shot FID、对前向任务使用 RMSE,进行定性与定量评估。
实验结果
研究问题
- RQ1一个基于扩散的模型是否能从单一视觉-语言提示中学习执行多任务视觉-语言任务?
- RQ2联合多任务微调是否能在不进行特定任务微调的情况下实现对未见视觉-语言任务的泛化?
- RQ3在该框架中,文本引导的编辑是否能通过提示可靠控制?
- RQ4Prompt Diffusion 相较于训练任务的特定基线表现如何,以及对新任务的泛化能力如何?
主要发现
| 方法 | FID 深度到图像 | FID Hed-to-Image | FID Seg-to-Image | RMSE 图像到深度 | RMSE 图像到 HED | RMSE 图像到分割 |
|---|---|---|---|---|---|---|
| CN(FT) | 19.81 | 13.07 | 20.71 | 0.20 | 0.18 | 0.36 |
| Prompt Diffusion (ours) | 18.60 | 13.35 | 19.46 | 0.21 | 0.14 | 0.31 |
- Prompt Diffusion 在训练任务上实现高质量的上下文内生成,并能通过提示有效泛化到未见任务。
- 在逆向任务上,Prompt Diffusion 相较于 CN(FT) 达到具有竞争力的零-shot FID。
- 在前向任务上,Prompt Diffusion 在若干指标上达到与基线相当或更好的 RMSE。
- 该模型支持由文本引导和图像条件驱动的可控图像编辑。
- 跨六个任务的联合训练有助于学习跨任务的对应关系和上下文能力。
- 定性结果展示对风格转换和错配示例对等任务的泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。